Fase 3 do modelo de processo nítido-dm: preparação de dados
mineiros de dados passam a maior parte do seu tempo na terceira fase do processo padrão Cross-Indústria de Mineração de Dados (CRISP-DM) modelo de processo: preparação de dados. A maior parte dos dados utilizados para a mineração de dados foram inicialmente recolhidos e preservados para outros fins e precisa de algum refinamento antes de estar pronto a ser usado para modelagem.
Conteúdo
- Tarefa: seleção de dados
- Video: propg_programa coleta de dados
- Tarefa: limpeza de dados
- Video: projeto cmd - conjunto mínimo de dados da atenção à saúde
- Tarefa: construindo dados
- Video: bancos de dados: exercícios para prova - aula 11 - bancos de dados 2016.1
- Tarefa: integração de dados
- Video: aula 10 datamine fundamentos - selwf e interpolação de teores
- Dados formatação: task
A fase de preparação de dados inclui cinco tarefas. Esses são
A seleção de dados
dados limpeza
construindo dados
integração de dados
dados formatação
O guia CRISP-DM passo-a-passo não menciona explicitamente conjuntos de dados como resultados para cada uma das tarefas de preparação de dados, mas esses conjuntos de dados teve bem danado melhor existir e ser devidamente arquivados e documentados. Conjuntos de dados não correspondem um-para-um com tarefas, mas as informações sobre os dados utilizados devem ser incluídos em cada relatório de entrega.
Tarefa: Seleção de dados
Agora você vai decidir qual parte dos dados que você tem é realmente vai ser usado para mineração de dados.
A entrega para esta tarefa é a justificativa para inclusão e exclusão. Nele, você vai explicar o que os dados vai, e não, ser utilizado para futuros trabalhos de mineração de dados.
Você vai explicar as razões para incluir ou excluir cada parte dos dados que você tem, com base na relevância de seus objetivos, a qualidade dos dados e questões técnicas - tais como limites para o número de campos ou linhas que suas ferramentas podem lidar com, ou a adequação dos formatos de dados para suas necessidades.
Video: PROPG_Programa Coleta de Dados
Tarefa: Limpeza de dados
Os dados que você escolheu para usar é improvável que seja perfeitamente limpo (livre de erros). Você vai fazer alterações, talvez rastrear fontes para fazer correções de dados específicos, excluindo alguns casos ou células individuais (itens de dados), ou substituir alguns itens de dados com valores padrão ou substituições selecionados por uma técnica de modelagem mais sofisticada. Você pode optar por utilizar apenas subconjuntos de dados para todos ou alguns de seus trabalhos de mineração de dados.
Video: Projeto CMD - Conjunto Mínimo de Dados da Atenção à Saúde
A entrega para esta tarefa é o relatório de limpeza de dados, documentos estes que, nos mínimos detalhes, cada decisão e ação usado para limpar seus dados. Esse relatório deve abranger e referem-se a cada problema de qualidade de dados que foi identificado no verificar a qualidade dos dados tarefa na fase de dados de compreensão do processo. Você relata também devem abordar o impacto potencial sobre os resultados das escolhas que você fez durante a limpeza de dados.
Tarefa: Construindo dados
Pode ser necessário derivar alguns novos campos (por exemplo, usar a data de entrega ea data em que um cliente fez um pedido para calcular quanto tempo o cliente esperou para receber uma ordem), os dados agregados, ou criar uma nova forma de dados.
Entregas para esta tarefa incluem dois relatórios:
atributos derivados: Um relatório que descreve o que novos campos (colunas) de ter construído, como você fez isso, e por quê.
registros gerados: Um relatório que descreve o que novos casos (linhas) que você construiu, como você fez isso, e por quê.
Video: Bancos de Dados: Exercícios para Prova - Aula 11 - Bancos de Dados 2016.1
Embora as tarefas de dados de mesclagem de dados e formato estão listados última nesta fase do processo, eles nem sempre vêm passado, e eles podem não chegar a apenas uma vez. Você pode ter que fazer alguma fusão ou reformatar no início da fase de preparação de dados.
Tarefa: Integração de dados
Seus dados podem agora estar em vários conjuntos de dados díspares. Você vai precisar mesclar alguns ou todos esses conjuntos de dados díspares para se preparar para a fase de modelagem.
Video: Aula 10 Datamine Fundamentos - SELWF e Interpolação de Teores
A entrega para esta tarefa é os dados mesclados. (E não faria mal para documentar como a fusão foi realizada.)
Dados Formatação: Task
Dados muitas vezes vem para você em outros do que os que são mais convenientes para a modelagem de formatos. (Mudanças de formato são geralmente conduzidos pelo design de suas ferramentas.) Então converter esses formatos agora.
A entrega para esta tarefa é seus dados reformatado. (E um pouco relatório que descreve as mudanças que você fez seria uma coisa inteligente a incluir.)
Você deve terminar a fase de preparação dos dados do processo de mineração de dados com um conjunto de dados pronto para modelagem e um relatório completo descrevendo o conjunto de dados.