A Google atualizou e relançou um software open source para limpeza, análise e transformação de conjuntos de dados (data sets), rebatizado agora como Google Refine.
O software, que antes se chamava Freebase Gridworks, veio com a Metaweb, uma empresa adquirida pela Google em julho.
O Google Refine é uma coleção de ferramentas que poderiam ser úteis na manipulação de informações em bases de dados, especialmente as que têm inconsistência.
A aplicação desktop pode, por exemplo, encontrar todas as variações de digitação de uma palavra em um data set e trocá-las pelo termo apropriado. Este processo, chamado normalização, não é novo. Mas a normalização de dados geralmente exige programação específica para cada data set, ressaltou Christopher Groskopf, desenvolvedor do Chigago Tribune.
“O melhor do Gridworks é que ele é genérico o bastante para funcionar com uma ampla variedade de data sets, sem necessidade de escrever qualquer código. O melhor é que as operações resultantes são portáteis – o processo usado para limpar dados em 2009 pode ser repetido em 2010”, escreveu Groskopf em seu blog.
O software contém diversas outras ferramentas. Há uma linguagem que pode ser usada para analisar um conjunto de dados. Filtros podem ser usados para isolar subconjuntos (subsets) de dados, que por sua vez podem ser analisados e manipulados por meio de uma lista de comandos de transformação.
O software funciona com arquivos de texto puro – os dados podem ser separados em colunas com o uso de vírgulas. Os resultados podem ser exportados de volta em formato JavaScript Object Notation (JSON), que pode então ser facilmente transformados em tabelas HTML ou outros formatos.
O software pode funcionar com até algumas centenas de milhares de linhas por data set, dependendo da memória do computador do usuário. E, ao contrário de muitas planilhas eletrônicas, o software pode transformar de forma interativa grandes subconjuntos de dados, garantiu a empresa.
A Google afirmou esta semana que acrescentou diversos novos recursos ao software, chamado oficialmente de Google Refine 2.0, incluindo a capacidade de vincular registros a outros bancos de dados, e diversos novos comandos e expressões de transformação.
A ONG de vigilância governamental ProPublica, dos EUA, tem usado este software para agregar dados de sete fontes diferentes para mostrar como as empresas farmacêuticas têm pago a médicos para recomendar certos tipos de remédio.
0 comentários:
Postar um comentário