O que é, e como funciona esse processo de Web Scraping ?
Web scraping é uma técnica que permite extrair informações dos websites. Este processo de busca de dados da internet certamente é uma das atividades que um cientista de dados precisar realizar, já que atualmente a maior parte dos dados estão na web. O processo basicamente consiste na busca de dados não estruturados das páginas web, normalmente em formato HTML, e a transformação destes dados em estruturados, possibilitando a criação de relatórios com maior facilidade.
Data Source Web Para o Power BI
Nesse post você aprenderá como importar uma tabela de dados de uma página da Web e criar um relatório para visualizar esses dados. Vou mostrar um pouco da funcionalidade de web scraping em uma ferramenta que, além da captura dos dados, permite também realizar a limpeza e a organização destes dados; gerar modelos lógicos relacionando estes dados; e, ainda, a criação de relatórios e dashboards interativos: o Power BI Desktop.
O maior item necessário para trazer a web para o Power BI Desktop está em tabelas html bem formadas. As tags da tabela parecem ser o componente-chave para puxar dados de uma página da Web.
Para esse exemplo irei utilizar o seguinte endereço web: https://pt.wikipedia.org/wiki/Lista_de_unidades_federativas_do_Brasil_por_popula%C3%A7%C3%A3o População
das unidades federativas brasileiras segundo estimativas de agosto de
2017 do Instituto Brasileiro de Geografia e Estatística (IBGE)
Como base nesses dados
irei criar uma relatório dinâmico no Power BI Desktop, aonde estarei
usando somente as seguintes informações:
- Posição Por UF
- Quantidade da População Por UF
- Porcentagem da População Por Uf e a linha de crescimento
Será aberta uma caixa de diálogo solicitando a URL da página da Web da qual você deseja importar os dados.
Depois de digitar ou colar a URL, selecione OK. O Power BI Desktop se conecta à página e apresenta os dados disponíveis da página na janela Navegador. Quando você seleciona um dos elementos de dados disponíveis, por exemplo, uma tabela da página inteira, a janela Navegador exibe uma visualização desses dados no lado direito da janela.
Preview da tabela clicando na opção a direita (Table View)
E clicando na opção Web View você poderá visualizar o site de onde está buscando aquele determinado dado.
É possível escolher o botão Editar, que inicia o Editor de Consultas,
no qual você pode formatar e transformar os dados da página da Web
antes de importá-los para o Power BI Desktop. Selecione o botão Carregar e importe todos os elementos de dados selecionados no painel esquerdo.
Quando selecionamos Carregar, o Power BI Desktop importa os itens selecionados e os disponibiliza no painel Campos, localizado no lado direito da exibição Relatórios no Power BI Desktop.
Como pode observar estou duas tabelas do web site: [Por região] e [Table 0]
Isso é tudo o que você irá precisar para se conectar a uma página da Web e inserir seus dados no Power BI Desktop.
A partir daí, você
pode arrastar os campos para a tela Relatório e criar todas as
visualizações desejadas. Você também pode trabalhar os dados nessa
página da Web da mesma forma como faria com quaisquer outros dados –
formatá-los, criar relações entre eles e outras fontes de dados no
modelo e, de outro modo, fazer o que quiser para criar um relatório do
Power BI exatamente como deseja.
Segue abaixo modelo que criei.
0 comentários:
Postar um comentário