Fonte: Artigo
KDD,
SEMMA E CRISP-DM DESCRIÇÃO
O termo
descoberta de conhecimento em bancos de dados ou KDD, para abreviar, foi
cunhado em 1989 para Processo de busca de conhecimento em dados e enfatizar a
aplicação de "alto nível" (Fayyad et al, 1996). Fayyad considera a DM
como uma das fases do processo KDD e considera Que a fase de exploração de
dados se refere, principalmente, aos meios pelos quais os padrões são extraídos
e Enumerados a partir de dados. Neste trabalho há uma preocupação com o processo
KDD global, que será descrito
O SEMMA
foi desenvolvido pelo SAS Institute. O CRISP-DM foi desenvolvido por meio dos
esforços de um Consórcio inicialmente composto pela DaimlerChryrler, SPSS e
NCR. Eles serão descritos nas seções 2.2 E 2,3, respectivamente. Apesar de
SEMMA e CRISP-DM serem geralmente referidos como metodologias, neste Papel são
referidos como processos, no sentido de que consistem num determinado curso de
ação destinado a Alcançar um resultado.
2.1 O
processo KDD
O
processo KDD, tal como apresentado em (Fayyad et al., 1996), é o processo de
utilização de métodos de DM para extrair O que é considerado conhecimento de acordo com
a especificação de medidas e limiares, usando uma base Com qualquer
pré-processamento necessário, sub-amostragem e transformação do banco de dados.
Consideram-se cinco
1.
Seleção - Esta etapa consiste em criar um conjunto de dados de destino, ou
focar um subconjunto de variáveis ou
amostras de dados, em que a descoberta deve ser realizada.
2.
Pré-processamento - Esta etapa consiste na limpeza e pré-processamento de dados
de destino para
Dados
consistentes.
3.
Transformação - Esta etapa consiste na transformação dos dados usando a
dimensionalidade
Redução
ou métodos de transformação.
4.
Mineração de Dados - Esta etapa consiste na busca por padrões de interesse em
um determinado
Representacional,
dependendo do objetivo de mineração de dados (geralmente, previsão)
5.
Interpretação / Avaliação - Esta etapa consiste na interpretação e avaliação da
Padrões.
2.2 O
processo SEMMA
O
processo SEMMA foi desenvolvido pelo SAS Institute. O acrónimo SEMMA significa
Sample,Explore, Modifique, Modelo, Avalie e faça referência ao processo de
realização de um projeto de mineração de dados. O SAS Instituto considera um
ciclo com 5 etapas para o processo:
1.
Amostra - Esta etapa consiste na amostragem dos dados extraindo uma porção de
um grande conjunto de dados grande Suficiente
para conter as informações significativas, mas pequeno o suficiente para
manipular rapidamente. esta Fase é
apontada como sendo opcional.
2.
Explorar - Esta fase consiste na exploração dos dados através da procura de
tendências imprevistas e
anomalias, a fim de obter compreensão e ideias.
3.
Modificar - Esta etapa consiste na modificação dos dados criando, selecionando
e
Transformando
as variáveis para focar o processo de seleção do modelo.
4. Modelo - Esta fase consiste na modelagem dos dados,
permitindo que o software para pesquisa
Automaticamente
para uma combinação de dados que confiavelmente prediz um resultado desejado.
5.
Avaliar - Esta fase consiste em avaliar os dados através da avaliação da
utilidade e da
Os
resultados do processo de mineração de dados e estimar o quão bem ele executa.
Embora o
processo SEMMA seja independente da ferramenta DM escolhida, ele está vinculado
ao SAS Enterprise Miner e finge orientar o usuário sobre as implementações de
aplicações DM.
O SEMMA
oferece um processo de fácil compreensão, permitindo um desenvolvimento
organizado e Manutenção de projetos de DM. Confere assim uma estrutura para a
sua concepção, criação e evolução, ajudando a Apresentar soluções para
problemas de negócios, bem como para encontrar os objetivos de negócios DM. (Santos
& Azevedo, 2005.
2.3 O
processo CRISP-DM
O
processo CRISP-DM foi desenvolvido por meio do esforço de um consórcio
inicialmente Com DaimlerChryrler, SPSS e NCR. CRISP-DM significa Processo
Padrão para Dados da CROSS-Industry Mineração. Consiste num ciclo que
compreende seis fases (figura 2):
1.
Compreensão do negócio - Esta fase inicial se concentra na compreensão dos
objetivos do projeto e Requisitos
de uma perspectiva de negócio, convertendo então este conhecimento em uma mineração de dados A
definição de um problema e um plano preliminar concebido para atingir os
objetivos.
2.
Compreensão dos dados - A fase de compreensão dos dados inicia-se com uma
primeira
Prossegue
com atividades para se familiarizar com os dados, identificar problemas de
qualidade de dados,Para
descobrir as primeiras ideias sobre os dados ou para detectar subconjuntos
interessantes para formar hipóteses para Informações
ocultas.
3. Preparação
dos dados - A fase de preparação dos dados abrange todas as atividades para a
construção do conjunto de dados final A partir
dos dados brutos iniciais.
4. Modelagem
- Nesta fase, são selecionadas e aplicadas várias técnicas de modelização e
Parâmetros
são calibrados para valores ótimos.
5.
Avaliação - Nesta fase o modelo (ou modelos) obtidos são avaliados mais
Etapas
executadas para construir o modelo são revisadas para ter certeza de que ele
Objetivos.
6.
Implantação - A criação do modelo geralmente não é o fim do projeto. Mesmo que
a finalidade Do modelo é aumentar o conhecimento dos dados, o conhecimento
adquirido deverá ser Organizado e
apresentado de forma que o cliente possa usá-lo.(Chapman
et al, 2000)
1 comentários:
Boa noite, tudo certo?
Gostaria de saber onde posso me aprofundar mais sobre essas metodologias de CRISP-DM e KDD.
att.
Postar um comentário