Usando dados relevantes para análise preditiva: evitar “garbage in, garbage out”

A análise preditiva começa com bons dados. Mais dados não significa necessariamente melhores dados. Um projeto de análise preditiva bem sucedido requer, em primeiro lugar, os dados relevantes e precisos.

Mantendo-o simples não é estúpido

Se você está tentando resolver uma decisão de negócio complexo, você pode ter que desenvolver modelos igualmente complexas. Tenha em mente, no entanto, que um modelo excessivamente complexa pode degradar a qualidade dessas previsões preciosos que você está depois, tornando-os mais ambígua. Quanto mais simples você mantenha o seu modelo, mais controle você tem sobre a qualidade dos resultados do modelo.

Limitando a complexidade do modelo depende de saber quais variáveis ​​para selecionar antes mesmo de começar a construir - e que a consideração leva de volta para as pessoas com o conhecimento de domínio. Seus especialistas de negócios são a melhor fonte para insights sobre quais variáveis ​​têm impacto direto sobre o problema de negócio que você está tentando resolver. Além disso, você pode decidir empiricamente sobre quais variáveis ​​para incluir ou excluir.



Use essas informações para garantir que o seu conjunto de dados de treinamento inclui a maioria (se não todos) os dados possível que você pretende usar para construir o modelo.

preparação de dados coloca as coisas boas em

Para garantir a alta qualidade dos dados como um fator para o sucesso do modelo que você está construindo, preparação de dados e limpeza podem ser de grande ajuda. Quando você está examinando seus dados, prestar especial atenção à

  • Os dados que foram recolhidos automaticamente (por exemplo, a partir de formas de teia)
  • Dados que não foram submetidos a triagem minuciosa
  • Os dados recolhidos através de um processo controlado
  • Os dados que podem ter valores fora-de-gama, erros de entrada de dados, e / ou valores incorrectos

Os erros mais comuns que levam à temida “lixo no lixo para fora,” cenário de incluir estes goofs clássicos:

  • Incluindo mais dados do que o necessário
  • Construção de modelos mais complexos do que o necessário
  • A seleção de variáveis ​​de previsão ruins ou recursos na sua análise
  • Usando dados que carece de qualidade e relevância suficiente

Publicações relacionadas