Fase 4 do modelo de processo crisp-dm: modelagem

Video: PBA Lecture 3 CRISP DM and Data Preprocessing

A modelagem é a parte do processo padrão Cross-Indústria de Mineração de Dados (CRISP-DM) modelo de processo que a maioria dos dados mineiros como melhor. Seus dados já está em boa forma, e agora você pode procurar por padrões úteis em seus dados.

Video: The intersection of data and creativity (plus CRISP-DM)

A fase de modelagem inclui quatro tarefas. Esses são

  • Seleção de técnicas de modelagem

  • teste (s) Designing

  • modelo (s) de construção

  • Avaliando modelo (s)

Tarefa: Seleção de técnicas de modelagem

O maravilhoso mundo da mineração de dados oferece grande quantidade de técnicas de modelagem, mas nem todos eles vão atender às suas necessidades. Reduzir a lista com base nos tipos de variáveis ​​envolvidas, a seleção de técnicas disponíveis em suas ferramentas, e quaisquer considerações de negócios que são importantes para você.

Por exemplo, muitas organizações favorecem métodos com saída que é fácil de interpretar, então árvores de decisão ou de regressão logística pode ser aceitável, mas as redes neurais provavelmente não serão aceitos.

Entregas para esta tarefa incluem dois relatórios:

  • técnica de modelagem: Especifique a técnica (s) que você vai usar.

  • suposições de modelagem: Muitas técnicas de modelagem são baseadas em certas suposições. Por exemplo, um tipo de modelo pode ser destinado ao uso com dados que tem um tipo específico de distribuição. Documentar essas suposições neste relatório.

Os estatísticos estão bem informados, rigoroso e exigente sobre suposições. Isso não é necessariamente verdade de mineiros de dados, e não é um requisito para se tornar um mineiro de dados. Se você tem conhecimento estatístico profundo e compreender as premissas por trás dos modelos que você selecionar, você pode ser rigoroso e exigente sobre suposições.

Mas mineiros muitos dados, especialmente os mineiros de dados novatos, não mexer muito ao longo suposições. A alternativa está testando - lotes e lotes de testes - de seus modelos.

Tarefa: Projetando testes



O teste nessa tarefa é o teste que você vai usar para determinar o quão bem o seu modelo funciona. Pode ser tão simples como dividir seus dados em um grupo de casos para treinamento do modelo e outro grupo para testes de modelo.

dados de treinamento é usado para caber formas matemáticas para o modelo de dados, e os dados de teste é usado durante o processo de treinamento do modelo para evitar overfitting: fazer um modelo que é perfeito para um conjunto de dados, mas nenhum outro. Você também pode usar dados, holdout dados que não são utilizados durante o processo de treinamento do modelo, para um teste adicional.

A entrega para esta tarefa é o seu design de teste. Ele não precisa ser elaborada, mas você deve pelo menos tomar cuidado para que os seus dados de treinamento e teste são semelhantes e que você evitar a introdução de qualquer viés nos dados.

modelo (s) Edifício: Task

A modelagem é o que muitas pessoas imaginam ser todo o trabalho do mineiro de dados, mas é apenas uma tarefa de dezenas! No entanto, a modelagem para resolver objetivos específicos de negócios é o coração da profissão de mineração de dados.

Video: Curso de Analitica Predictiva con RapidMiner y la Metodologia CRISP DM

Entregas para esta tarefa incluem três itens:

  • definições de parâmetros: Quando a construção de modelos, a maioria das ferramentas dar-lhe a opção de ajustar uma variedade de configurações, e essas configurações têm um impacto sobre a estrutura do modelo final. Documentar essas configurações em um relatório.

  • descrições de modelo: Descreva seus modelos. Indicar o tipo de modelo (como regressão linear ou rede neural) e as variáveis ​​utilizadas. Explique como o modelo é interpretada. Documentar as dificuldades encontradas no processo de modelagem.

  • modelos: Este material são os próprios modelos. Alguns tipos de modelo pode ser facilmente definida com um simples outros equation- são demasiado complexos e devem ser transmitidos em um formato mais sofisticado.

Tarefa: Avaliar modelo (s)

Agora você irá rever os modelos que você criou, a partir de um ponto de vista técnico e também do ponto de vista comercial (muitas vezes com a participação de especialistas em negócios em sua equipe de projeto).

Entregas para esta tarefa incluem dois relatórios:

  • avaliação do modelo: Resume a informação desenvolvida em sua revisão do modelo. Se você criou vários modelos, você pode classificá-los com base em sua avaliação do seu valor para uma aplicação específica.

  • definições de parâmetros revisados: Você pode optar por configurações de ajuste fino que foram usados ​​para construir o modelo e realizar outra rodada de modelagem e tentar melhorar os seus resultados.

A exploração de dados, como uma cebola, uma torta de Dobos, ou uma rocha sedimentar, tem muitas camadas. Quando você está apenas começando em mineração de dados, você pode começar por deixar ajustes de parâmetros nos valores padrão (na verdade, você pode até não notar opções menos que você faça um esforço para olhar para eles).

Como você se sentir confortável em sua nova carreira de mineração de dados, ele vai fazer sentido para você para saber mais sobre os parâmetros do modelo e saber como você pode usá-los. Suas opções variam amplamente com o tipo de modelo e ferramenta específica que você está usando.


Publicações relacionadas