Preparando seus dados para análise preditiva

Quando você tiver definido os objectivos do modelo, o próximo passo na análise preditiva é identificar e preparar os dados que você vai usar para construir o seu modelo. As informações a seguir aborda as atividades mais importantes. A seqüência geral de passos parece com isso:

  1. Identificar as fontes de dados.
    Os dados podem estar em diferentes formatos ou residir em vários locais.
  2. Identificar como você irá acessar os dados.
    Às vezes, você precisaria para adquirir dados de terceiros ou dados de propriedade de uma divisão diferente em sua organização, etc.
  3. Considere quais variáveis ​​para incluir em sua análise.

    Uma abordagem padrão é começar com uma vasta gama de variáveis ​​e eliminar aqueles que não oferecem nenhum valor preditivo para o modelo.

  4. Determinar se deve usar variáveis ​​derivadas.
    Em muitos casos, uma variável derivadas (como a relação preço-per-ganho utilizada para analisar os preços das ações) teria maior impacto direto sobre o modelo do que seria a variável cru.
  5. Explorar a qualidade dos seus dados, buscando compreender tanto o seu estado e limitações.
    A precisão das previsões do modelo está diretamente relacionada com as variáveis ​​que você selecionar e a qualidade de seus dados. Você gostaria de responder a algumas perguntas específicas de dados neste momento:
  6. São os dados completo?
  7. Será que ela tem os valores atípicos?
  8. Será que os dados precisam de limpeza?
  9. Você precisa preencher valores ausentes, mantê-los como eles são, ou eliminá-los por completo?

Compreender os seus dados e suas propriedades podem ajudar você a escolher o algoritmo que será mais útil na construção de seu modelo. Por exemplo:

  • algoritmos de regressão pode ser usada para analisar dados de séries temporais.
  • algoritmos de classificação pode ser usado para analisar dados discretos.
  • algoritmos de associação pode ser usado para dados com atributos correlacionados.

algoritmos individuais e técnicas preditivas têm diferentes pontos fracos e fortes. O mais importante, a precisão do modelo depende de ter tanto uma grande quantidade ea qualidade dos dados. Seus dados devem ter um número suficiente de registros para fornecer resultados estatisticamente significativos.

A recolha de dados relevantes (de preferência muitos registros ao longo de um longo período de tempo), pré-processamento, e extrair as características com a maioria dos valores preditivos será onde você gasta a maior parte de seu tempo. Mas você ainda tem que escolher o algoritmo de forma inteligente, um algoritmo que deve ser adequado para o problema de negócio.

preparação de dados é específico para o projeto que você está trabalhando e o algoritmo de você optar por empregar. Dependendo dos requisitos do projeto, você vai preparar seus dados em conformidade e alimentá-lo para o algoritmo como você construir o seu modelo para atender às necessidades de negócios.



O conjunto de dados usado para treinar e testar o modelo deve conter informações comerciais relevantes para responder ao problema que você está tentando resolver. Se seu objetivo é (por exemplo) para determinar qual o cliente é provável a produzir, então o conjunto de dados que você escolher deve conter informações sobre clientes que agitaram no passado, além de clientes que não têm.

Alguns modelos criados para dados de minas e dar sentido a suas relações subjacentes - por exemplo, aqueles construídos com algoritmos de agrupamento - não precisa ter um resultado final específico em mente.

Underfitting

Underfitting é quando o seu modelo não consegue detectar todas as relações em seus dados. Isso geralmente é uma indicação de que variáveis ​​essenciais - aqueles com poder preditivo - não foram incluídos na análise.

Se as variáveis ​​usadas no seu modelo não tem alto poder preditivo, então tente adicionar novas variáveis ​​específicas de domínio e execute novamente o seu modelo. O objetivo final é melhorar o desempenho do modelo com os dados de treinamento.

Outra questão a observar é sazonalidade (Quando você tem padrão sazonal, se você deixar de analisar várias épocas que você pode entrar em apuros.) Por exemplo, uma análise de ações que inclui apenas dados de um mercado de touro (onde os preços globais de ações estão subindo) não conta para crises ou bolhas que podem trazer grandes correções para o desempenho global de ações. Não incluir dados que abrange tanto o touro e mercados de urso (quando os preços globais de ações estão caindo) mantém o modelo de produzir a melhor seleção de carteiras possível.

overfitting

overfitting é quando o seu modelo inclui dados que não tem poder preditivo mas é apenas específica para o conjunto de dados que você está analisando. Barulho - variações aleatórias no conjunto de dados - pode encontrar o seu caminho para o modelo, de modo que executar o modelo em um conjunto de dados diferente produz uma grande queda no desempenho preditivo do modelo e precisão.


Publicações relacionadas