Como testar o modelo de análise preditiva

Para ser capaz de testar o modelo de análise preditiva que você construiu, você precisa dividir o conjunto de dados em dois conjuntos: treinamento e teste conjuntos de dados. Estes conjuntos de dados deve ser seleccionado ao acaso e deve ser uma boa representação da população efectiva.

  • Dados semelhantes devem ser usados ​​tanto para a formação e conjuntos de dados de teste.

  • Normalmente, o conjunto de dados de treinamento é significativamente maior do que o conjunto de dados de teste.

  • Usando o conjunto de dados de teste ajuda a evitar erros, como overfitting.

  • O modelo de formação é executado com dados de teste para ver quão bem o modelo irá executar.

Alguns cientistas de dados preferem ter um terceiro conjunto de dados que tem características semelhantes às dos dois primeiros: a conjunto de dados de validação. A idéia é que se você estiver usando ativamente seus dados de teste para refinar o seu modelo, você deve usar um separado (terceiro) Conjunto para verificar a precisão do modelo.

Ter um conjunto de dados de validação, que não foi usado como parte do processo de desenvolvimento de seu modelo, ajuda a garantir uma estimativa neutro de precisão e eficácia do modelo.

Se você construiu vários modelos usando vários algoritmos, a amostra de validação também pode ajudá-lo a avaliar qual o modelo que melhor desempenho.

Certifique-se que você verifique o seu trabalho a desenvolver e testar o modelo. Em particular, ser cético se o desempenho ou a precisão do modelo parece bom demais para ser verdade. Erros podem acontecer onde você menos espera. Incorretamente calcular datas para dados de séries temporais, por exemplo, pode levar a resultados errados.

Como empregar validação cruzada

Validação cruzada é uma técnica popular que você pode usar para avaliar e validar o seu modelo. O mesmo princípio da utilização de conjuntos de dados separados para testes e treinamento se aplica aqui: a dados de treinamento é usado para construir o modelo- o modelo é executado contra o conjunto de testes para prever dados que ele não tenha visto antes, que é uma forma de avaliar sua precisão .

Na validação cruzada, os dados históricos é dividido em número X de subconjuntos. Cada vez que um subconjunto é escolhido para ser usado como dados de teste, o resto dos subconjuntos são usados ​​como dados de treinamento. Em seguida, na próxima corrida, o antigo conjunto de teste se torna um dos conjuntos de treinamento e um dos antigos conjuntos de treinamento torna-se o conjunto de teste.

O processo continua até que cada subconjunto de que X número de conjuntos tem sido utilizado como um conjunto de teste.

Por exemplo, imagine que você tem um conjunto de dados que você tenha dividido em 5 conjuntos de 1 a 5. Na primeira corrida, você usar set 1 como o conjunto de teste e usar conjuntos de 2, 3, 4 e 5 como o conjunto de treinamento. Em seguida, na segunda corrida, você usar set 2 como o conjunto de teste e conjuntos 1, 3, 4 e 5 como conjunto de treinamento.



Você continuar este processo até que cada subconjunto dos 5 jogos tem sido usado como um conjunto de teste.

Validação cruzada permite que você use todos os pontos de dados em seus dados históricos tanto para treinamento e testes. Esta técnica é mais eficaz do que apenas dividir seus dados históricos em dois conjuntos, usando o conjunto com o maior número de dados para treinamento, usando o outro conjunto para testes, e deixar por isso mesmo.

Quando você cross-validar seus dados, você está protegendo-se contra dados de teste escolhendo aleatoriamente que é muito fácil de prever - que lhe daria a falsa impressão de que o seu modelo é preciso. Ou, se acontecer de você pegar dados de teste que é muito difícil prever, você pode falsamente concluir que o seu modelo não está funcionando como você esperava.

Video: A-262 NOVIDADE ! ATERRAMENTO RESIDENCIAL! QUAL O MAIS ADEQUADO? HASTES EM LINHA OU TRIÂNGULO?

Validação cruzada é amplamente utilizado não só para validar a precisão dos modelos, mas também para comparar o desempenho de vários modelos.

Como equilibrar viés e variância

Viés e variância são duas fontes de erros que podem ocorrer enquanto você está construindo o seu modelo analítico.

Viés é o resultado da construção de um modelo que simplifica significativamente a apresentação das relações entre pontos de dados nos dados históricos utilizados para construir o modelo.

variação é o resultado de construir um modelo que seja explicitamente específico para os dados utilizados para construir o modelo.

Atingir um equilíbrio entre viés e variância - reduzindo a variância e tolerar algum viés - pode levar a um melhor modelo preditivo. Este trade-off geralmente leva a construção de menos modelos preditivos complexos.

Muitos algoritmos de mineração de dados foram criados para ter em conta este trade-off entre viés e variância.

Video: A-222 – DIAGRAMA UNIFILAR E MULTIFILAR E SUAS DIFERENÇAS

Como solucionar problemas de ideias

Quando você está testando seu modelo e você está indo a lugar nenhum, aqui estão algumas idéias para considerar que pode ajudá-lo a voltar à pista:

  • Sempre verifique o seu trabalho. Você pode ter esquecido algo que você assumiu foi correta, mas não é. Tais falhas poderiam mostrar-se (por exemplo) entre os valores de uma variável preditiva no seu conjunto de dados, ou na pré-processamento que você aplicou aos dados.

    Video: Dicas para testes de modelo

  • Se o algoritmo que você escolheu não está produzindo qualquer resultado, tente outro algoritmo. Por exemplo, você experimentar vários algoritmos de classificação disponíveis e dependendo de seus dados e os objetivos de negócios de seu modelo, um dos que pode ter um melhor desempenho do que os outros.

  • Tente selecionar variáveis ​​diferentes ou criar novas variáveis ​​derivadas. Estar sempre à procura de variáveis ​​que têm poderes de previsão.

  • consultar com frequência com os especialistas do domínio de negócios que podem ajudá-lo a fazer sentido dos dados, selecionar as variáveis, e interpretar os resultados do modelo.


Publicações relacionadas