[DATAMINING] Mineração de Dados - A evolução natural da informação

Fonte: BI na Prática

Mineração de Dados - A evolução natural da informação 
Por Grimaldo Oliveira


Quando o termo “mundo globalizado” se tornou um chavão para que as empresas do mundo “acordassem” procurando expansão ou melhores formas de gerir o seu negócio, a tecnologia de Mineração de Dados ou Data Mining já mostrava a sua “cara”. Ela está presente desde os primórdios da humanidade, quando os egípcios buscavam identificar as formas de explicar o comportamento das marés, os períodos de seca e de chuvas, e a posição dos astros.

Entendo que a definição do que seja Mineração de Dados está diretamente ligado à procura, descoberta, tentar encontrar algo além do óbvio, como o que os mineiros buscam dentro de cavernas na tentativa de encontrar o diamante perfeito (isso não é fácil). A definição clássica deste termo vem do pesquisador FAYYAD et al. (1996):  “processo, não trivial, de extração de informações implícitas, previamente desconhecidas e potencialmente úteis, a partir dos dados armazenados em um banco de dados”, ou seja, buscar por informações em uma base de dados com os mais variados atributos e assuntos.

Na verdade quem trabalha com Mineração de Dados busca encontrar padrões nos dados, e estes padrões são das mais variadas formas. Há um clássico exemplo das fraldas e cervejas. Você acha que alguma pessoa iria imaginar em comprar cervejas e fraldas ao mesmo tempo toda vez que fosse ao supermercado? Pois isso é um padrão identificado e está ligado a minerar dados. A definição que mais me identifico é “A Mineração de Dados também conhecida como “garimpagem dos dados” é o processo de extração de informações, sem conhecimento prévio em um grande banco de dados, das características dos dados, e seu uso são para tomada de decisões”.

Como então trabalhar com este “caos” nos dados, na busca destes padrões? Como posso no meio de tantos dados encontrar algo que seja útil para os meus negócios? Para isso foram desenvolvidas fases que utilizamos para minerar os dados:



Estas fases são cíclicas e deve nortear todo o estudo em uma base de dados que seja candidata a Mineração de Dados. Para garantir que as fases da Mineração de Dados sejam efetivamente um sucesso, estas são exaustivamente seguidas pelo que é conhecido por técnicas e tarefas. As mais utilizadas e conhecidas são:


Vamos diferenciar as coisas: a tarefa está intrinsecamente ligada ao que estamos querendo buscar nos dados, que tipo de categoria de padrões temos interesse em encontrar, ou melhor, que tipo de padrões poderiam nos surpreender (por exemplo, um gasto elevado na conta de luz de uma empresa em um determinado período que se repete de 6 em 6 meses). A técnica de mineração consiste na definição de métodos que nos garantam como descobrir os padrões que nos interessam. Uma técnica é então aplicada a uma tarefa na mineração de dados, e a escolha desta técnica estará ligada a um problema de descoberta de conhecimento a ser solucionado:



Vamos exemplificar o que acabamos de descrever sobre técnica e tarefas. Sou gerente de um banco e todo cliente que chega a minha mesa para pedir um empréstimo tenho que decidir: concedo ou não o empréstimo? Para balizar minha decisão comecei a recolher alguns dados com o sistema de clientes do banco e dentre tantos atributos, selecionei aqueles que considero mais relevantes:


Com os atributos identificados, defini quem era ou não um bom pagador, pois esta informação seria utilizada para liberar ou não o empréstimo ao cliente. Agora como decidir através de mineração de dados a concessão ou não do empréstimo? 

Irei utilizar uma técnica e uma tarefa para isso. Neste momento decido pela técnica de Árvore de Decisão e pela tarefa de Classificação, pois poderei a partir de um gráfico em formato de árvore decidir se empresto ou não o dinheiro do banco.


Resultado da Árvore de Decisão:

Vamos dizer que a senhor João Sousa, chega a minha mesa e solicita um empréstimo, então pergunto:


Pronto! Com duas informações apenas, idade e renda, decido liberar o empréstimo, pois a árvore de decisão informa que é provável que ele pague o empréstimo. Lembro que esta decisão é pautada na saída do algoritmo de Mineração de Dados, que garante uma probabilidade de acerto na decisão que estou tomando. 

O uso da Mineração de Dados está se expandindo a cada dia. Hoje existe uma gama de ferramentas no mercado: Weka, Linguagem R, Endeca, Knime, dentre outras. Acredito que a expansão deste mercado está diretamente ligada ao conhecimento que devemos adquirir para uso desta tecnologia, pois para ser um bom minerador de dados devemos ser multidisciplinar, entender de gestão, estatística, programação, banco de dados e ter muita curiosidade. 

Compatilhe no Google Plus

Sobre Grimaldo Oliveira

Mestre pela Universidade do Estado da Bahia (UNEB) no Curso de Mestrado Profissional Gestão e Tecnologias Aplicadas à Educação (GESTEC) com o projeto “GESMOODLE – Ferramenta de acompanhamento do aluno de graduação, no ambiente virtual de aprendizagem(MOODLE), no contexto da UNEB“. Possui também Especialização em Análise de Sistemas pela Faculdade Visconde de Cairu e Bacharelado em Estatística pela Universidade Federal da Bahia. Atua profissionalmente como consultor há mais de 15 anos nas áreas de Data Warehouse, Mineração de Dados, Ferramentas de Tomada de Decisão e Estatística. Atualmente é editor do blog BI com Vatapá. Livro: BI COMO DEVE SER - www.bicomodeveser.com.br

0 comentários: