quinta-feira, 21 de dezembro de 2017

[DADOS NUVEM] Buscando dados da Internet e carregando no Power BI – Web Scraping

Fonte: NECTI



O que é, e como funciona esse processo de Web Scraping ?
Web scraping é uma técnica que permite extrair informações dos websites. Este processo de busca de dados da internet certamente é uma das atividades que um cientista de dados precisar realizar, já que atualmente a maior parte dos dados estão na web. O processo basicamente consiste na busca de dados não estruturados das páginas web, normalmente em formato HTML, e a transformação destes dados em estruturados, possibilitando a criação de relatórios com maior facilidade.

Data Source Web Para o Power BI
Nesse post você aprenderá como importar uma tabela de dados de uma página da Web e criar um relatório para visualizar esses dados. Vou mostrar um pouco da funcionalidade de web scraping em uma ferramenta que, além da captura dos dados, permite também realizar a limpeza e a organização destes dados; gerar modelos lógicos relacionando estes dados; e, ainda, a criação de relatórios e dashboards interativos: o Power BI Desktop.
O maior item necessário para trazer a web para o Power BI Desktop está em tabelas html bem formadas. As tags da tabela parecem ser o componente-chave para puxar dados de uma página da Web.

Para esse exemplo irei utilizar o seguinte endereço web: https://pt.wikipedia.org/wiki/Lista_de_unidades_federativas_do_Brasil_por_popula%C3%A7%C3%A3o População das unidades federativas brasileiras segundo estimativas de agosto de 2017 do Instituto Brasileiro de Geografia e Estatística (IBGE)



Como base nesses dados irei criar uma relatório dinâmico no Power BI Desktop, aonde estarei usando somente as seguintes informações:
  1. Posição Por UF
  2. Quantidade da População Por UF
  3. Porcentagem da População Por Uf e a linha de crescimento

Será aberta uma caixa de diálogo solicitando a URL da página da Web da qual você deseja importar os dados.


Depois de digitar ou colar a URL, selecione OK. O Power BI Desktop se conecta à página e apresenta os dados disponíveis da página na janela Navegador. Quando você seleciona um dos elementos de dados disponíveis, por exemplo, uma tabela da página inteira, a janela Navegador exibe uma visualização desses dados no lado direito da janela.
Preview da tabela clicando na opção a direita (Table View)





E clicando na opção Web View você poderá visualizar o site de onde está buscando aquele determinado dado.



É possível escolher o botão Editar, que inicia o Editor de Consultas, no qual você pode formatar e transformar os dados da página da Web antes de importá-los para o Power BI Desktop. Selecione o botão Carregar e importe todos os elementos de dados selecionados no painel esquerdo.
Quando selecionamos Carregar, o Power BI Desktop importa os itens selecionados e os disponibiliza no painel Campos, localizado no lado direito da exibição Relatórios no Power BI Desktop.
Como pode observar estou duas tabelas do web site: [Por região] e [Table 0]




Isso é tudo o que você irá precisar para se conectar a uma página da Web e inserir seus dados no Power BI Desktop.
A partir daí, você pode arrastar os campos para a tela Relatório e criar todas as visualizações desejadas. Você também pode trabalhar os dados nessa página da Web da mesma forma como faria com quaisquer outros dados – formatá-los, criar relações entre eles e outras fontes de dados no modelo e, de outro modo, fazer o que quiser para criar um relatório do Power BI exatamente como deseja.
Segue abaixo modelo que criei.










Nenhum comentário:

Postar um comentário