10 Erros comuns de mineração de dados (que você não vai fazer)

A mineração de dados é feito por tentativa e erro, e assim, para os mineiros de dados, cometer erros é apenas natural. Os erros podem ser valiosas, em outras palavras, pelo menos sob certas condições. No entanto, nem todos os erros são criados iguais,. Alguns são apenas melhor evitado. A lista a seguir oferece dez tais erros. Se você lê-los com cuidado, e cometê-los para a memória, você só pode evitar alguns solavancos na curva de aprendizagem:

Pular verificações de qualidade de dados: A maioria dos mineiros de dados acho desenvolver modelos preditivos é mais divertido do que rever os dados para problemas de qualidade. Mas se você não conseguir detectar e problemas de qualidade de dados corretos, você pode acabar com as previsões inúteis.

  • Faltando o ponto: Você descobriu algo fascinante! Isso é bom, mas se não é também relevante para o problema de negócio você se propôs a resolver, bem, não é relevante em tudo. Voltar à pista.

  • Acreditar que um padrão nos dados de prova uma relação de causa e efeito: Você explora um conjunto de dados e observe que, quando aumenta uma variável, aumenta B variáveis, também. Isso pode ocorrer porque Variável A influencia Variável B, ou porque influências B variável A. Variável Por outro lado, pode ser que ambos são influenciados por alguma outra variável que você não considerou. Ou poderia ser uma coincidência de uma só vez. Quem pode dizer?

  • Alongamento conclusões longe demais: Não presuma que os relacionamentos que você observa nos dados se repitam em diferentes circunstâncias. Se os dados foram coletados em um ambiente fresco, não assumir que as coisas vão funcionar da mesma maneira em uma configuração de fábrica quente.

  • Apostando em resultados que não fazem sentido: métodos de mineração de dados são informais e não costumam ser apoiados por método científico e da teoria, portanto, seus resultados melhor que pelo menos fazer sentido para os negócios. Se não há nenhuma explicação senso comum para os resultados que apresentam, a sua gestão executiva provavelmente não vai levá-lo a sério, e que não devem.



  • Apaixonar-se com um método de modelagem especial: Não existe um único tipo de modelo de mineração de dados que se adapta a cada situação.

  • Colocando um modelo em produção, sem os testes adequados: Não aposte seu negócio em um modelo preditivo até que você tenha testado com dados holdout e em pequena escala no campo.

  • Ignorando os resultados que você não gosta: Se você ignorar seus dados agora, ele vai voltar um dia e dizer: “Eu avisei.”

  • Usando mineração de dados para resolver todas as necessidades de análise de dados: mineração de dados tem um enorme valor, mas algumas aplicações ainda chamam para métodos rigorosos de coleta de dados, análise estatística formal, e método científico.

  • Presumindo que as técnicas de análise de dados tradicionais já não importa: Consulte a bala anterior.


  • Publicações relacionadas