[DADOS NUVEM] Buscando dados da Internet e carregando no Power BI – Web Scraping

Fonte: NECTI



O que é, e como funciona esse processo de Web Scraping ?
Web scraping é uma técnica que permite extrair informações dos websites. Este processo de busca de dados da internet certamente é uma das atividades que um cientista de dados precisar realizar, já que atualmente a maior parte dos dados estão na web. O processo basicamente consiste na busca de dados não estruturados das páginas web, normalmente em formato HTML, e a transformação destes dados em estruturados, possibilitando a criação de relatórios com maior facilidade.

Data Source Web Para o Power BI
Nesse post você aprenderá como importar uma tabela de dados de uma página da Web e criar um relatório para visualizar esses dados. Vou mostrar um pouco da funcionalidade de web scraping em uma ferramenta que, além da captura dos dados, permite também realizar a limpeza e a organização destes dados; gerar modelos lógicos relacionando estes dados; e, ainda, a criação de relatórios e dashboards interativos: o Power BI Desktop.
O maior item necessário para trazer a web para o Power BI Desktop está em tabelas html bem formadas. As tags da tabela parecem ser o componente-chave para puxar dados de uma página da Web.

Para esse exemplo irei utilizar o seguinte endereço web: https://pt.wikipedia.org/wiki/Lista_de_unidades_federativas_do_Brasil_por_popula%C3%A7%C3%A3o População das unidades federativas brasileiras segundo estimativas de agosto de 2017 do Instituto Brasileiro de Geografia e Estatística (IBGE)



Como base nesses dados irei criar uma relatório dinâmico no Power BI Desktop, aonde estarei usando somente as seguintes informações:
  1. Posição Por UF
  2. Quantidade da População Por UF
  3. Porcentagem da População Por Uf e a linha de crescimento

Será aberta uma caixa de diálogo solicitando a URL da página da Web da qual você deseja importar os dados.


Depois de digitar ou colar a URL, selecione OK. O Power BI Desktop se conecta à página e apresenta os dados disponíveis da página na janela Navegador. Quando você seleciona um dos elementos de dados disponíveis, por exemplo, uma tabela da página inteira, a janela Navegador exibe uma visualização desses dados no lado direito da janela.
Preview da tabela clicando na opção a direita (Table View)





E clicando na opção Web View você poderá visualizar o site de onde está buscando aquele determinado dado.



É possível escolher o botão Editar, que inicia o Editor de Consultas, no qual você pode formatar e transformar os dados da página da Web antes de importá-los para o Power BI Desktop. Selecione o botão Carregar e importe todos os elementos de dados selecionados no painel esquerdo.
Quando selecionamos Carregar, o Power BI Desktop importa os itens selecionados e os disponibiliza no painel Campos, localizado no lado direito da exibição Relatórios no Power BI Desktop.
Como pode observar estou duas tabelas do web site: [Por região] e [Table 0]




Isso é tudo o que você irá precisar para se conectar a uma página da Web e inserir seus dados no Power BI Desktop.
A partir daí, você pode arrastar os campos para a tela Relatório e criar todas as visualizações desejadas. Você também pode trabalhar os dados nessa página da Web da mesma forma como faria com quaisquer outros dados – formatá-los, criar relações entre eles e outras fontes de dados no modelo e, de outro modo, fazer o que quiser para criar um relatório do Power BI exatamente como deseja.
Segue abaixo modelo que criei.










Compatilhe no Google Plus

Sobre Grimaldo Oliveira

Mestre pela Universidade do Estado da Bahia (UNEB) no Curso de Mestrado Profissional Gestão e Tecnologias Aplicadas à Educação (GESTEC) com o projeto “GESMOODLE – Ferramenta de acompanhamento do aluno de graduação, no ambiente virtual de aprendizagem(MOODLE), no contexto da UNEB“. Possui também Especialização em Análise de Sistemas pela Faculdade Visconde de Cairu e Bacharelado em Estatística pela Universidade Federal da Bahia. Atua profissionalmente como consultor há mais de 15 anos nas áreas de Data Warehouse, Mineração de Dados, Ferramentas de Tomada de Decisão e Estatística. Atualmente é editor do blog BI com Vatapá. Livro: BI COMO DEVE SER - www.bicomodeveser.com.br

0 comentários: