Muitas organizações têm investido em sistemas analíticos para ajudar na gestão dos seus negócios. A queda no custo de armazenamento de dados bem como na aquisição de computadores de alto desempenho, contribuíram para que o propósito pela busca por conhecimento se torne mais atrativo e indispensável para manter a competição entre as entidades na sociedade.
Diversas ferramentas estão sendo desenvolvidas no auxilio da exploração dos dados para acelerar estas descobertas, para isso, cada classe de aplicação em um determinado ferramental analítico tem como base um conjunto de algoritmos que serão usados na extração das relações relevantes dentro de uma massa de dados: análise de sequências, clusterização, classificação, regras de associação, dentre outras. Cada uma destas técnicas difere quanto ao gênero do problema que o algoritmo será capaz de resolver.
A mineração de dados também conhecida como “garimpagem dos dados” é um dos processo de extração de informações mais difundidos, sem conhecimento prévio em um grande banco de dados, das características dos dados e seu uso são para tomada de decisões. Com este objetivo procura-se informações importantes, para tanto, é necessário um esforço cooperativo entre o ser humano e a máquina, onde os humanos planejam o repositório de dados e os computadores pesquisam através dos dados procurando tendências e padrões que correspondam ao escopo estabelecido (DINIZ e LOUZADA NETO, 2000).
LOCALIZANDO PADRÕES
Antes de entendermos qualquer ferramental, algo básico e fundamental é aprender sobre o que são os padrões, e como eles são criados.
Os padrões são unidades de informação que se repetem, ou então são sequências de informações que dispõe de uma estrutura que se repete. Para exemplificar este conceito veremos o exemplo abaixo:
Vejamos a seqüência : 123XGF123DGR5F123YTHGJ123UJH7123CHGJ9T
Observe a sequência de letras e números e tente encontrar alguma coisa relevante.
1) Percebesse que existe uma sequência numérica que se repete. Sequências “12” e “123” e as mesmas ocorrem com grande frequência superior as demais.
2) Após determinarmos as sequências “12” e “123”, verificamos que elas segmentam o padrão original em diversas unidades independentes:
“123XG”
“123DG”
“123YT”
“123UJ”
“123CH”
Vemos então, que o conjunto “123” se repete varias vezes , e isto indica um padrão. Agora pense que se codificarmos o número 1 como Smartphone, o número 2 como TV e o número 3 como Aparelho de Barbear e estamos analisando um conjunto de dados de uma loja de eletrodomésticos, notadamente poderíamos criar uma associação entre elas, onde os usuários que consomem Smartphone e TV também consomem Aparelho de Barbear, isto poderia aproximar estes produtos nas prateleiras da loja, contribuindo para um aumento nas vendas. Por mais inusitado que isso possa parecer, os dados podem revelar associações antes nunca pensadas.
A mineração de dados é o processo de descobrir informações relevantes, como padrões, associações, potencialmente úteis e ultimamente compreensíveis (FAYYAD et al., 1996). As mais diversas áreas como finanças, educação, saúde, telecomunicações, entre outras estão começando a investir no desenvolvimento de aplicações para encontrar respostas escondidas nas suas massas de dados. Isso ocorre por que é possível alavancar novas idéias e permitir tomar decisões em tempo, para que se mantenha a competitividade.
Bibliografia:
FAYYAD,Usama; PIATETSKI-SHAPIRO, Gregory; SMITY, Padhraic. The KDD Process for Extracting Useful Knowledge from Volumes of Data. In: Communications of the ACM, pp. 27-34, Nov. 1996.
DINIZ, Carlos; LOUZADA NETO, Francisco. Data Mining uma Introdução. In: 14º SINAPE , 24 jun. 2000, Caxambú. (Organizado pela ABE – Associação Brasileira de Estatística).
0 comentários:
Postar um comentário