[PROCESSO] KDD, SEMMA E CRISP-DM: UMA VISÃO GERAL PARALELA


Fonte: Artigo




KDD, SEMMA E CRISP-DM DESCRIÇÃO

O termo descoberta de conhecimento em bancos de dados ou KDD, para abreviar, foi cunhado em 1989 para Processo de busca de conhecimento em dados e enfatizar a aplicação de "alto nível" (Fayyad et al, 1996). Fayyad considera a DM como uma das fases do processo KDD e considera Que a fase de exploração de dados se refere, principalmente, aos meios pelos quais os padrões são extraídos e Enumerados a partir de dados. Neste trabalho há uma preocupação com o processo KDD global, que será descrito


O SEMMA foi desenvolvido pelo SAS Institute. O CRISP-DM foi desenvolvido por meio dos esforços de um Consórcio inicialmente composto pela DaimlerChryrler, SPSS e NCR. Eles serão descritos nas seções 2.2 E 2,3, respectivamente. Apesar de SEMMA e CRISP-DM serem geralmente referidos como metodologias, neste Papel são referidos como processos, no sentido de que consistem num determinado curso de ação destinado a  Alcançar um resultado.



2.1 O processo KDD

O processo KDD, tal como apresentado em (Fayyad et al., 1996), é o processo de utilização de métodos de DM para extrair  O que é considerado conhecimento de acordo com a especificação de medidas e limiares, usando uma base Com qualquer pré-processamento necessário, sub-amostragem e transformação do banco de dados. Consideram-se cinco
1. Seleção - Esta etapa consiste em criar um conjunto de dados de destino, ou focar um subconjunto de variáveis ou amostras de dados, em que a descoberta deve ser realizada.
2. Pré-processamento - Esta etapa consiste na limpeza e pré-processamento de dados de destino para
Dados consistentes.
3. Transformação - Esta etapa consiste na transformação dos dados usando a dimensionalidade
Redução ou métodos de transformação.
4. Mineração de Dados - Esta etapa consiste na busca por padrões de interesse em um determinado
Representacional, dependendo do objetivo de mineração de dados (geralmente, previsão)
5. Interpretação / Avaliação - Esta etapa consiste na interpretação e avaliação da
Padrões. 



2.2 O processo SEMMA
O processo SEMMA foi desenvolvido pelo SAS Institute. O acrónimo SEMMA significa Sample,Explore, Modifique, Modelo, Avalie e faça referência ao processo de realização de um projeto de mineração de dados. O SAS Instituto considera um ciclo com 5 etapas para o processo:

1. Amostra - Esta etapa consiste na amostragem dos dados extraindo uma porção de um grande conjunto de dados grande Suficiente para conter as informações significativas, mas pequeno o suficiente para manipular rapidamente. esta Fase é apontada como sendo opcional.
2. Explorar - Esta fase consiste na exploração dos dados através da procura de tendências imprevistas e anomalias, a fim de obter compreensão e ideias.
3. Modificar - Esta etapa consiste na modificação dos dados criando, selecionando e
Transformando as variáveis ​​para focar o processo de seleção do modelo.
4. Modelo - Esta fase consiste na modelagem dos dados, permitindo que o software para pesquisa
Automaticamente para uma combinação de dados que confiavelmente prediz um resultado desejado.
5. Avaliar - Esta fase consiste em avaliar os dados através da avaliação da utilidade e da
Os resultados do processo de mineração de dados e estimar o quão bem ele executa. 

Embora o processo SEMMA seja independente da ferramenta DM escolhida, ele está vinculado ao SAS Enterprise Miner e finge orientar o usuário sobre as implementações de aplicações DM.

O SEMMA oferece um processo de fácil compreensão, permitindo um desenvolvimento organizado e Manutenção de projetos de DM. Confere assim uma estrutura para a sua concepção, criação e evolução, ajudando a Apresentar soluções para problemas de negócios, bem como para encontrar os objetivos de negócios DM. (Santos & Azevedo, 2005.





2.3 O processo CRISP-DM
O processo CRISP-DM foi desenvolvido por meio do esforço de um consórcio inicialmente Com DaimlerChryrler, SPSS e NCR. CRISP-DM significa Processo Padrão para Dados da CROSS-Industry Mineração. Consiste num ciclo que compreende seis fases (figura 2):

1. Compreensão do negócio - Esta fase inicial se concentra na compreensão dos objetivos do projeto e Requisitos de uma perspectiva de negócio, convertendo então este conhecimento em uma mineração de dados A definição de um problema e um plano preliminar concebido para atingir os objetivos.
2. Compreensão dos dados - A fase de compreensão dos dados inicia-se com uma primeira
Prossegue com atividades para se familiarizar com os dados, identificar problemas de qualidade de dados,Para descobrir as primeiras ideias sobre os dados ou para detectar subconjuntos interessantes para formar hipóteses para Informações ocultas.
3. Preparação dos dados - A fase de preparação dos dados abrange todas as atividades para a construção do conjunto de dados final A partir dos dados brutos iniciais.
4. Modelagem - Nesta fase, são selecionadas e aplicadas várias técnicas de modelização e
Parâmetros são calibrados para valores ótimos.
5. Avaliação - Nesta fase o modelo (ou modelos) obtidos são avaliados mais
Etapas executadas para construir o modelo são revisadas para ter certeza de que ele
Objetivos.
6. Implantação - A criação do modelo geralmente não é o fim do projeto. Mesmo que a finalidade Do modelo é aumentar o conhecimento dos dados, o conhecimento adquirido deverá ser  Organizado e apresentado de forma que o cliente possa usá-lo.(Chapman et al, 2000)









Compatilhe no Google Plus

Sobre Grimaldo Oliveira

Mestre pela Universidade do Estado da Bahia (UNEB) no Curso de Mestrado Profissional Gestão e Tecnologias Aplicadas à Educação (GESTEC) com o projeto “GESMOODLE – Ferramenta de acompanhamento do aluno de graduação, no ambiente virtual de aprendizagem(MOODLE), no contexto da UNEB“. Possui também Especialização em Análise de Sistemas pela Faculdade Visconde de Cairu e Bacharelado em Estatística pela Universidade Federal da Bahia. Atua profissionalmente como consultor há mais de 15 anos nas áreas de Data Warehouse, Mineração de Dados, Ferramentas de Tomada de Decisão e Estatística. Atualmente é editor do blog BI com Vatapá. Livro: BI COMO DEVE SER - www.bicomodeveser.com.br

1 comentários:

Matheus disse...

Boa noite, tudo certo?
Gostaria de saber onde posso me aprofundar mais sobre essas metodologias de CRISP-DM e KDD.

att.