[MINERAÇÃO DE TEXTO] O QUE A MINERAÇÃO DE TEXTO REVELA NO ÚLTIMO DISCURSO DE DILMA

Fonte: BINAPRÀTICA

Por Grimaldo Oliveira

A ex-presidente do Brasil fez o seu discurso de defesa contra o impeachment no dia 29 de agosto de 2016, diante do processo que foi instaurado na câmara dos deputados e a posteriori na câmara do Senado da República para a cassação de seu mandato.

Para entender o que Dilma disse neste discurso, podemos simplesmente lê-lo e refletirmos sobre o que ela dizia aos senadores naquele momento. Diversas interpretações podem ser retiradas: formatos, correntes, contradições, dentre outros. O entendimento é individual e depende do ponto de vista de cada um. Claramente se iniciarmos um diálogo com duas ou mais pessoas, as inferências serão muitas e cada um defenderá os seus argumentos sobre o discurso.



Alheio as interpretações, a Mineração de Dados, área que trabalha com estudo e análise de dados em geral, pode através de suas técnicas e tarefas nos orientar ou nos nortear quanto ao que a ex-presidente queria proferir naquele momento, é possível verificar através das palavras quais as impressões ela desejaria transmitir aos senadores na sua defesa. Dentro da área de Mineração de Dados existe um caminho conhecido como mineração de texto que pode mapear as palavras e suas correlações, transcrevendo o cerne de um texto.

Neste artigo utilizaremos a mineração de texto para entendermos o discurso da ex-presidente, e quais foram as palavras mais utilizadas, extraindo assim a intenção da sua fala. Utilizaremos as seguintes ferramentas:
  • Ferramenta de Mineração de Dados: Weka - The University of Waikato
  • Ferramenta de Exibição dos Resultados - Microsoft Power BI
Inicialmente iremos copiar todas as palavras do discurso e colocar no formato da ferramenta WEKA. É criado um arquivo no formato ARFF, que é um padrão de texto comum. Abaixo um fragmento do arquivo final:
@relation 'mensagem'
@attribute mensagem string
@attribute class {'dilma'}
@data
'Excelentíssimo senhor presidente do Supremo Tribunal Federal, Ricardo Lewandowski; Excelentíssimo senhor presidente do Senado Federal, Renan Calheiros; Excelentíssimas senhoras senadoras e excelentíssimos senhores senadores; Cidadãs e cidadãos de meu amado Brasil, No dia 1º de janeiro de 2015, assumi meu segundo mandato à presidência da República Federativa do Brasil. Fui eleita por mais de 54 milhões de votos. Na minha posse, assumi o compromisso de manter, defender e cumprir a Constituição, bem como o de observar as leis, promover o bem geral do povo brasileiro, sustentar a união, a integridade e a independência do Brasil. Ao exercer a presidência da república, ....', 'Dilma'
Em seguida, utilizaremos este arquivo na ferramenta WEKA, para importar o texto. Vejamos como ficará carregado na ferramenta:



O principio básico da nossa mineração de texto será a verificação do número de ocorrências das palavras para identificar qual foi a ênfase do discurso. Para fracionar o texto em palavras é necessário executar um algoritmo que "quebre" o texto, lembrando que durante o discurso são mencionados pronomes, artigos e demais conectores que devem ser desconsiderados, pois a ocorrência deste termos não traduzem correlações importantes.

Utilizaremos o algoritmo StringtoWordVector, que cria um vetor de palavras separando o texto. Neste algoritmo são informados parâmetros dos mais diversos, pois ele desempenha diversas funções a depender da necessidade de pesquisa. No nosso artigo, os parâmetros são apresentados a seguir:


LowerCaseTokens: Transforma todas as palavras para minúscula, para evitar diferenças entre palavras.

MinTermFreq: Foi estabelecido o valor mínimo de 5 palavras por ocorrência, a depender do texto a média de palavras por ocorrência pode ser aumentada.

WordsToKeep: Estabelece o número máximo de palavras a serem analisadas, também dependerá da quantidade de palavras contidas no texto a ser analisado.

Carregaremos um arquivo que contém artigos, pronomes e conectores em geral é conhecido como stopwords que será utilizado para ignorar estes conectores no discurso da ex-presidente, em seguida é carregado pelo algoritmo StringtoWordVector. Vejamos uma amostra do arquivo stopwords:

"de,a,o,que,e,do,da,em,um,para,é,com,não,uma,os,no,se,na,por,mais,as,dos,como,mas,foi,ao,ele,das,tem,à,seu,sua,ou,ser,quando,muito,há,nos,já,está..."

Ao executar o algoritmo teremos um conjunto de palavras ou vetor de dados contendo todas as palavras do discurso de Dilma com o seu respectivo número de ocorrências.



O próximo passo é exibir as palavras para identificar as mais representativas. Existem diversas outros produtos que podem exibir os resultados, mas utilizaremos a ferramenta Power BI da Microsoft, através do objeto Nuvem de TAGS que cria um painel com as palavras mais representativas e destacadas pelo tamanho da fonte. Quanto maior for a palavra, mais citações foram encontradas no texto. O arquivo que contém as palavras e seus respectivos quantitativos deverão estar no seguinte formato:


O painel da Nuvem de Tags apresentou o seguinte resultado:


Com isso, podemos agora realizar inferências sobre o que a ex-presidente da República alegou em sua defesa diante dos Senadores da República, percebemos que palavras como:
"Processo, impeachment, povo, presidente,democracia, contra, crime,golpe responsabilidade,constituição, política,governo, mim,país"
Foram os destaques em seu pronunciamento, o que nos leva em uma primeira análise que ela alegou o crime imputado de responsabilidade a ser contra a democracia e ao povo, algo retórico em sua defesa durante todo o processo. Cabe agora a você tirar as suas conclusões.
Com esse estudo, vimos que a Mineração de Dados pode se tornar um alinhado no tratamento de dados no nosso dia a dia. Estamos lançando uma coletânea de 4 vídeos sobre o entendimento da mineração de dados sobre as principais técnicas da área e suas aplicações mais comuns. Estes vídeos estarão disponíveis ao leitor do livro BI Como Deve Ser - O Guia Definitivo (www.bicomodeveser.com), um material super rico e valioso para todos que desejam aprender a trabalhar com Business Intelligence e Mineração de Dados. Veja abaixo o primeiro vídeo da série:





Compatilhe no Google Plus

Sobre Grimaldo Oliveira

Mestre pela Universidade do Estado da Bahia (UNEB) no Curso de Mestrado Profissional Gestão e Tecnologias Aplicadas à Educação (GESTEC) com o projeto “GESMOODLE – Ferramenta de acompanhamento do aluno de graduação, no ambiente virtual de aprendizagem(MOODLE), no contexto da UNEB“. Possui também Especialização em Análise de Sistemas pela Faculdade Visconde de Cairu e Bacharelado em Estatística pela Universidade Federal da Bahia. Atua profissionalmente como consultor há mais de 15 anos nas áreas de Data Warehouse, Mineração de Dados, Ferramentas de Tomada de Decisão e Estatística. Atualmente é editor do blog BI com Vatapá. Livro: BI COMO DEVE SER - www.bicomodeveser.com.br

0 comentários: