Como preparar dados para um modelo de análise preditiva
Video: Analise Dados Qualitativos Parte II - Exemplo de categorização
Conteúdo
Quando você tiver definido os objectivos do modelo de análise preditiva, o próximo passo é identificar e preparar os dados que você vai usar para construir o seu modelo. A seqüência geral de passos parece com isso:
Identificar as fontes de dados.
Os dados podem estar em diferentes formatos ou residir em vários locais.
Identificar como você irá acessar os dados.
Às vezes, você precisaria para adquirir dados de terceiros ou dados de propriedade de uma divisão diferente em sua organização, etc.
Considere quais variáveis para incluir em sua análise.
Uma abordagem padrão é começar com uma vasta gama de variáveis e eliminar aqueles que não oferecem valores preditivos para o modelo.
Determinar se deve usar variáveis derivadas.
Video: 05 Tecnicas de coleta e analise de dados
Em muitos casos, uma variável derivadas (como a relação preço-per-ganho utilizada para analisar os preços das ações) teria maior impacto direto sobre o modelo do que seria a variável cru.
Explorar a qualidade dos seus dados, buscando compreender tanto o seu estado e limitações.
A precisão das previsões do modelo está diretamente relacionada com as variáveis que você selecionar e a qualidade de seus dados. Você gostaria de responder a algumas perguntas específicas de dados neste momento:
São os dados completo?
Será que ela tem os valores atípicos?
Será que os dados precisam de limpeza?
Você precisa preencher valores ausentes, mantê-los como eles são, ou eliminá-los por completo?
Compreender os seus dados e suas propriedades podem ajudar você a escolher o algoritmo que será mais útil na construção de seu modelo. Por exemplo:
algoritmos de regressão pode ser usada para analisar dados de séries temporais.
algoritmos de classificação pode ser usado para analisar dados discretos.
algoritmos de associação pode ser usado para dados com atributos correlacionados.
O conjunto de dados usado para treinar e testar o modelo deve conter informações comerciais relevantes para responder ao problema que você está tentando resolver. Se seu objetivo é (por exemplo) para determinar qual o cliente é provável a produzir, então o conjunto de dados que você escolher deve conter informações sobre clientes que agitaram no passado, além de clientes que não têm.
Alguns modelos criados para dados de minas e dar sentido a suas relações subjacentes - por exemplo, aqueles construídos com algoritmos de agrupamento - não precisa ter um resultado final específico em mente.
Dois problemas surgem quando se lida com dados como você está construindo o seu modelo: underfitting e overfitting.
Underfitting
Underfitting é quando o seu modelo não consegue detectar todas as relações em seus dados. Isso geralmente é uma indicação de que variáveis essenciais - aqueles com poder preditivo - não foram incluídos na análise. Por exemplo, uma análise de ações que inclui apenas dados de um mercado de touro (onde os preços globais de ações estão subindo) não conta para crises ou bolhas que podem trazer grandes correções para o desempenho global de ações.
Não incluir dados que abrange tanto o touro e mercados de urso (quando os preços globais de ações estão caindo) mantém o modelo de produzir a melhor seleção de carteiras possível.
overfitting
overfitting é quando o seu modelo inclui dados que não tem poder de previsão, mas é apenas específica para o conjunto de dados que você está analisando. Barulho - variações aleatórias no conjunto de dados - pode encontrar o seu caminho para o modelo, de modo que executar o modelo em um conjunto de dados diferente produz uma grande queda no desempenho preditivo do modelo e precisão. A barra lateral que acompanha fornece um exemplo.
Se o seu modelo executa muito bem em um conjunto de dados em particular e só underperforms quando você testá-lo em um conjunto de dados diferente, overfitting suspeito.