[ARTIGO] Uso de Ferramenta Data Discovery na Análise dos Dados do Portal da Transparência Brasil

Fonte: BI na Prática


Por João F. Andrade, Marcos Vinício Monteiro, Tiago Dias


O Portal da Transparência foi criado desde 2004 por iniciativa da Controladoria Geral da União (CGU), de forma a permitir aos cidadãos fiscalizar a aplicação dos recursos públicos com o intuito de melhorar a administração pública, buscando assim reduzir a corrupção no Brasil.

Conseguimos realizar algumas análises diretamente no portal. No entanto, é possível extrair informações com maior riqueza de detalhes fazendo uso de ferramentas de “Data Discovery”. Tais ferramentas, algumas delas gratuitas, são amplamente utilizadas no desenvolvimento de soluções de Business Intelligence (BI), possibilitando que pessoas, mesmo sem conhecimentos técnicos, experimentem diferentes visualizações dos dados através de poderosos recursos gráficos.


Este artigo aborda o uso da ferramenta gratuita de Data Discovery Oracle Data Visualization (ODV) para exploração dos dados disponíveis no Portal da Transparência, referente aos repasses realizados aos órgãos e entidades da administração pública federal, que executam as despesas pelo Sistema Integrado de Administração Financeira do Governo Federal (SIAFI) no mês de agosto/2016. As referidas entidades são os Estados, municípios, Distrito Federal, instituições privadas com e sem fins lucrativos do Brasil e do exterior.

Para aprimorar as análises e agregar maiores possibilidades para construções dos gráficos e relevância para os resultados encontrados, foram adicionadas ao estudo duas outras bases:
Dados do censo do IBGE de 2010
Base de geolocalização dos municípios brasileiros

Iniciamos o trabalho com a instalação do ODV, que foi um processo bastante simples, pois segue o conceito padrão do Windows de avançar e concluir, sem muitas perguntas.

Em seguida, partirmos para a conexão das bases de dados, todas elas em formato Excel. Tivemos que realizar um tratamento prévio dos dados para viabilizar o relacionamento adequado entre as 3 fontes de dados. As colunas comuns entre as bases foram o nome do município e o Estado, porém, estes dados estavam incompatíveis entre si. Foi necessária a remoção de acentuações de uma das bases, além da realização do “de-para” para a compatibilização entre nome e sigla dos estados. Na importação das bases, identificamos algumas limitações da ferramenta, por exemplo, um campo que continha números e letras foi carregado com o tipo Numérico e, no momento de visualização dos dados, um erro foi apresentado. Foi necessário realizar a troca do tipo de dado do referido campo para Texto.

Findada a carga dos dados, o relacionamento entre as tabelas foi estabelecido de forma automática, pois a ferramenta identificou as colunas, pelos nomes, comuns entre elas.


Esse gráfico representa a métrica (Valor Parcela) pelo tamanho da área e pela tonalidade da cor dos quadriláteros. Quanto maior for o somatório das parcelas, maior a figura e mais forte é a cor. Percebemos que o estado de São Paulo foi o que recebeu maior volume de recursos. Já os Estados de Minas Gerais, Rio de Janeiro e Bahia são respectivamente o segundo, terceiro e quarto colocados. O Exterior foi quem recebeu menor repasse.

Prosseguindo nas análises, ficamos curiosos em descobrir como estes valores foram distribuídos por funções no estado da Bahia. Utilizamos então dois gráficos combinados do tipo ”Nuvem de Indicadores”.



Nestes dois gráficos, ao selecionarmos o estado BA, a ferramenta destacou as ocorrências da coluna “Função” no Estado da Bahia, não refazendo nem recalculando o gráfico da direita com base na seleção do Estado. Dessa forma tem-se duas análises distintas. À esquerda, representando o total dos repasses por Estado, que para a BA representou 1,8B (bilhão), sendo o maior repasse para o Estado de SP com 3,0B. E, à direita, o total dos repasses totais por Função sendo que Encargos Especiais representa 16,0B. A correlação com o Estado selecionado (BA) é feita apenas com o destaque das Funções que ocorrem nesse Estado e não a significância do valor para o mesmo.
Para aprofundar as análises, buscamos identificar nos municípios baianos, que receberam os 10 maiores repasses (TOP 10) e os que receberam os 10 menores repasses (BOTTOM 10). Para esta análise, utilizamos uma tabela simples, mas tivemos que construir as fórmulas para buscar os 10 mais e os 10 menos, conforme demostrado na imagem abaixo.


Nesta visão, tentamos estabelecer uma correlação entre o valor de repasse e os indicadores demográficos, sociais e econômicos. Foram adicionados os itens População, IDH, Renda Per Capita e Longevidade. Ao se fazer algumas comparações, constata-se que não existe uma correlação direta entre o volume de dados recebidos com os demais índices. Um exemplo é o município de Novo Horizonte. Ele é o município que recebeu o segundo menor valor de repasse, mas os seus indicadores IDH, Renda Per capita e Longevidade são comparados ao de Salvador, município que mais recebeu repasses.
Uma outra tentativa de detalhar as análises foi verificar a distribuição dos valores repassados por função, agregados por municípios de uma determinada macrorregião do estado da Bahia, no caso, o oeste baiano. Nesta visualização, escolhemos o gráfico “Sankey”.


Para que fosse possível a identificação da informação de macrorregião na análise, o cruzamento dos dados com a base de geolocalização foi fundamental.
O gráfico tipo Sankey destaca a espessura da linha como a representação do volume de recursos obtido por cada município. O município de Barreiras foi o que recebeu maior volume de recursos destinado a Função Encargos Especiais nessa macrorregião. Embora os valores não sejam demonstrados no gráfico impresso, ao passar o mouse sobre cada linha a ferramenta ODV demonstra a representação em valor da linha selecionada.
No processo de experimentação da ferramenta, terminamos identificando algumas das principais fragilidades do ODV. Não conseguimos, por exemplo, montar um gráfico para fazer o Drill Down. A tabela dinâmica também não funcionou a contento. Ainda assim, buscamos um plugin da tabela dinâmica, que não nos atendeu por possuir limitação de quantidade de registros. Tentamos também plotar os dados num gráfico do tipo mapa, mas não funcionou, pois ele não trabalha com a geolocalização e pelos nomes dos municípios terminou localizando pontos em outros países.
Utilizando um pouco de criatividade desenvolvemos um painel, com vários gráficos que, por sua vez, apresentam várias respostas. Mostra também mais recursos de visualização, do tipo texto e imagem como complemento do painel e um hiperlink, na imagem, para navegar nas visões através de botões, simulando um Drill Down, que não conseguimos implementar nativamente na ferramenta.


Em relação aos dados apresentados, podemos ver uma análise sobre o município de Camaçari que apresenta no primeiro painel, além do Estado e Micro Região a que ele pertence. A distribuição dos repasses recebidos classificados por Função, além do valor total repassado para o município e o top 10 dos órgãos municipais que receberam os maiores volumes de recursos.
O segundo gráfico já apresenta um detalhamento dos repasses recebidos por Camaçari, onde foram adicionadas as dimensões de SubFunção (Finalidade), que é um detalhamento da Função (Área), além da dimensão “Linguagem Cidadã”, que demonstra um detalhamento maior para os repasses, considerando uma linguagem mais amigável para o público em geral.
Ao final do trabalho, percebemos que a ferramenta Oracle Data Visualization permite a construção de relatórios, painéis e gráficos com bastante facilidade e sem necessidade de conhecimentos de programação.
Com ela é possível correlacionar diversas fontes de dados tais como bancos de dados corporativos, planilhas, arquivos csv, etc., para enriquecer as informações e possibilitar melhores decisões empresariais.
No entanto, deve-se salientar que a ferramenta possui algumas deficiências. Entre elas podemos citar a alta exigência de hardware, mensagens de erro de difícil compreensão por gestores, opções não intuitivas e ausência de alguns recursos gráficos, exemplo o “Drill Down”, já comuns em outras ferramentas similares. Ausente também a possibilidade de publicação dos trabalhos na nuvem, obrigando cada gestor ter a ferramenta instalada em sua máquina de trabalho.
A escolha da ferramenta de Data Discovery, deve levar em consideração todos os pontos levantados no decorrer do trabalho, além de questões de disponibilidade, acessibilidade e principalmente das questões comerciais.
Percebemos que O ODV é uma ferramenta em evolução, que vem ganhando mercado devido a força e seriedade da marca Oracle. Se houver investimento na redução das suas limitações, ela tem tudo para se posicionar muito bem no mercado de BI das ferramentas gratuitas no médio prazo.
REFERÊNCIAS
Download da ferramenta Oracle Data Visualization Desktop
http://www.oracle.com/technetwork/middleware/oracle-data-visualization/downloads/oracle-data-visualization-desktop-2938957.html
Base de dados de coordenadas geográficas
https://drive.google.com/file/d/0B4pUqAIKMHrVb1pyYTZOdk9sYUdIb29zWkR4d29lYnhmbWhV/view?usp=sharing
Portal da transparência Brasil
http://www.portaldatransparencia.gov.br/downloads/mensal.asp?c=Transferencias
Base de dados 3 - Transferência de Recursos Federais - Portal da Transparência
http://www.portaldatransparencia.gov.br/downloads/mensal.asp?c=Transferencias#meses08
Plugins do ODV
https://sites.google.com/site/oraclebipublicstore/downloads
A discriminação do conteúdo da coluna “Funcao” pode ser obtida no endereço do portal de transparência
http://www.portaldatransparencia.gov.br/ajuda/tabelaFuncional.pdf


Compatilhe no Google Plus

Sobre Grimaldo Oliveira

Mestre pela Universidade do Estado da Bahia (UNEB) no Curso de Mestrado Profissional Gestão e Tecnologias Aplicadas à Educação (GESTEC) com o projeto “GESMOODLE – Ferramenta de acompanhamento do aluno de graduação, no ambiente virtual de aprendizagem(MOODLE), no contexto da UNEB“. Possui também Especialização em Análise de Sistemas pela Faculdade Visconde de Cairu e Bacharelado em Estatística pela Universidade Federal da Bahia. Atua profissionalmente como consultor há mais de 15 anos nas áreas de Data Warehouse, Mineração de Dados, Ferramentas de Tomada de Decisão e Estatística. Atualmente é editor do blog BI com Vatapá. Livro: BI COMO DEVE SER - www.bicomodeveser.com.br

0 comentários: