Fase 2 do modelo de processo crisp-dm: entendimento de dados
Na segunda fase do Processo Padrão Cruz do setor de Data Mining (CRISP-DM) modelo de processo, você obter dados e verifique se ele é apropriado para suas necessidades. Você pode identificar as questões que causam-lhe regressar ao entendimento do negócio e rever o seu plano. Você pode até descobrir falhas em seu entendimento do negócio, mais um motivo para repensar objetivos e planos.
Conteúdo
A fase de dados de entendimento inclui quatro tarefas. Esses são
Juntando informação
descrevendo dados
explorando dados
Verificar a qualidade dos dados
Tarefa: Recolha de dados
Você acabou de definir metas e definido um plano de mineração de dados. Cada passo do plano depende de ter os dados corretos. Melhor ter certeza que você realmente tem que os dados!
existe apenas uma entrega para esta tarefa: o relatório inicial de coleta de dados. Em seu relatório, você precisa verificar se você adquiriu os dados ou pelo menos teve acesso aos dados, testou o processo de acesso a dados, e verificou-se que os dados existem. Você também vai precisar para carregar dados em todas as ferramentas que você vai usar para mineração de dados para verificar se as ferramentas são compatíveis com os dados.
Você pode fazer um monte de trabalho para montar os dados que você precisa antes que você possa escrever este relatório. Primeiro, você vai fazer o seu plano, como segue:
Delinear os requisitos de dados: Criar uma lista dos tipos de dados necessários para abordar as metas de mineração de dados. Expandir a lista com detalhes tais como os formatos de intervalo de tempo e dados necessários.
Verifique a disponibilidade de dados: Confirmar que existe os dados necessários, e que você pode usá-lo. Se alguns dos dados que você quer não estiver disponível, decidir como você vai lidar com essa questão. Considerar alternativas como a
Substituindo com uma fonte de dados alternativa
Estreitando o escopo do projeto
Reunindo novos dados
Definir critérios de seleção: Identificar as fontes específicas de dados (bancos de dados, arquivos, documentos e assim por diante.) Que você vai usar. Dentro dessas fontes, especifique os intervalos de tabelas, campos, e de casos que são relevantes para este projecto.
Uma vez que você já passou por essas etapas, você deve realmente obter os dados. Nesta fase, importe os dados para a plataforma de mineração de dados que você vai usar para o projeto para confirmar que é possível fazê-lo e que você entenda o processo. No decorrer deste julgamento você pode descobrir software (ou hardware) limitações que você não tinha previsto, tais como
Limites sobre o número de casos ou campos, ou sobre a quantidade de memória que você pode usar
Incapacidade de ler os formatos de dados de suas fontes
Dificuldade em lidar com as imperfeições nos dados (por exemplo, você pode encontrar produtos que não irá importar ou analisar conjuntos de dados incompletos)
Finalmente, resumir o processo de coleta em um relatório. O relatório deve descrever suas necessidades, e explicar em detalhes exatamente o que os dados que você coletou e de que fontes. Aqui você confirmar que você tem realmente obtidos os dados e que é compatível com a sua plataforma de mineração de dados. Se você encontrar dificuldades, você vai explicar o que eram e como você se dirigiu a eles (usando fontes alternativas, rever planos, mudando formatos).
A entrega para esta tarefa é apenas um relatório simples, mas o trabalho que você precisa fazer antes que você possa escrever a esse relatório não será simples! O acesso aos dados pode ser uma das partes mais difíceis e frustrantes do processo de mineração de dados, repleto de ambos os desafios técnicos e de negócios.
Tarefa: Descrevendo dados
Agora que você tem os dados, prepare uma descrição geral do que você tem.
A entrega para esta tarefa é o relatório de descrição de dados. Nele, você descreve a fonte e formatos dos dados, o número de casos, o número e as descrições dos campos, e qualquer outra informação geral que pode ser importante. Você também fazer uma breve avaliação da adequação dos dados para seus objetivos de mineração de dados. Por exemplo, verifique se os dados incluem os campos que você espera e precisa de estar lá e casos suficientes para análise.
Tarefa: Explorando dados
Nesta tarefa, você examinar os dados mais de perto. Para cada variável, você olha para o intervalo de valores e suas distribuições. Você vai usar manipulação de dados simples e técnicas estatísticas básicas para mais verificações para os dados. exploração de dados suporta vários fins:
Familiarize-se com os dados.
sinais pontuais de problemas de qualidade de dados.
Ajuste a fase para as etapas de preparação de dados.
A entrega para esta tarefa é o relatório de exploração de dados. É o lugar para documentar quaisquer hipóteses ou conclusões iniciais que você desenvolveu durante a exploração de dados. Este relatório deverá incluir uma descrição mais detalhada dos dados do que o relatório de descrição de dados, incluindo distribuições, resumos e quaisquer sinais de problemas de qualidade de dados.
Tarefa: Verificar a qualidade dos dados
Você tem os dados e você já examinou, e agora você tem que determinar se é bom o suficiente para suportar seus objetivos. Muitas vezes você vai ter algum problema de qualidade para resolver ainda assim ser capaz de se mover para a frente, mas às vezes a qualidade dos dados é tão pobre que não pode apoiar o seu plano e você vai ter que procurar alternativas. Alguns dos piores problemas de dados incluiria
Os dados que você precisa não existir. (Será que ele nunca existe, ou foi descartado? Estes dados podem ser recolhidos e guardados para uso futuro?)
Ela existe, mas você não pode tê-lo. (Pode essa restrição ser superados?)
Você encontra problemas graves de qualidade de dados (lotes de valores ausentes ou incorretas que não podem ser corrigidos).
A entrega para esta tarefa é o relatório de qualidade de dados. Isto resume os dados que você tem, questões menores e maiores de qualidade que você encontrou, e eventuais soluções para problemas de qualidade ou alternativas (como o uso de um recurso de dados alternativa). Se você está enfrentando quaisquer problemas realmente sérios de qualidade de dados e não pode identificar uma solução adequada, você pode ter a recomendar metas ou planos de reconsiderar.