Como testar o modelo de análise preditiva
Para ser capaz de testar o modelo de análise preditiva que você construiu, você precisa dividir o conjunto de dados em dois conjuntos: treinamento e teste conjuntos de dados. Estes conjuntos de dados deve ser seleccionado ao acaso e deve ser uma boa representação da população efectiva.
Conteúdo
Dados semelhantes devem ser usados tanto para a formação e conjuntos de dados de teste.
Normalmente, o conjunto de dados de treinamento é significativamente maior do que o conjunto de dados de teste.
Usando o conjunto de dados de teste ajuda a evitar erros, como overfitting.
O modelo de formação é executado com dados de teste para ver quão bem o modelo irá executar.
Alguns cientistas de dados preferem ter um terceiro conjunto de dados que tem características semelhantes às dos dois primeiros: a conjunto de dados de validação. A idéia é que se você estiver usando ativamente seus dados de teste para refinar o seu modelo, você deve usar um separado (terceiro) Conjunto para verificar a precisão do modelo.
Ter um conjunto de dados de validação, que não foi usado como parte do processo de desenvolvimento de seu modelo, ajuda a garantir uma estimativa neutro de precisão e eficácia do modelo.
Se você construiu vários modelos usando vários algoritmos, a amostra de validação também pode ajudá-lo a avaliar qual o modelo que melhor desempenho.
Certifique-se que você verifique o seu trabalho a desenvolver e testar o modelo. Em particular, ser cético se o desempenho ou a precisão do modelo parece bom demais para ser verdade. Erros podem acontecer onde você menos espera. Incorretamente calcular datas para dados de séries temporais, por exemplo, pode levar a resultados errados.
Como empregar validação cruzada
Validação cruzada é uma técnica popular que você pode usar para avaliar e validar o seu modelo. O mesmo princípio da utilização de conjuntos de dados separados para testes e treinamento se aplica aqui: a dados de treinamento é usado para construir o modelo- o modelo é executado contra o conjunto de testes para prever dados que ele não tenha visto antes, que é uma forma de avaliar sua precisão .
Na validação cruzada, os dados históricos é dividido em número X de subconjuntos. Cada vez que um subconjunto é escolhido para ser usado como dados de teste, o resto dos subconjuntos são usados como dados de treinamento. Em seguida, na próxima corrida, o antigo conjunto de teste se torna um dos conjuntos de treinamento e um dos antigos conjuntos de treinamento torna-se o conjunto de teste.
O processo continua até que cada subconjunto de que X número de conjuntos tem sido utilizado como um conjunto de teste.
Por exemplo, imagine que você tem um conjunto de dados que você tenha dividido em 5 conjuntos de 1 a 5. Na primeira corrida, você usar set 1 como o conjunto de teste e usar conjuntos de 2, 3, 4 e 5 como o conjunto de treinamento. Em seguida, na segunda corrida, você usar set 2 como o conjunto de teste e conjuntos 1, 3, 4 e 5 como conjunto de treinamento.
Você continuar este processo até que cada subconjunto dos 5 jogos tem sido usado como um conjunto de teste.
Validação cruzada permite que você use todos os pontos de dados em seus dados históricos tanto para treinamento e testes. Esta técnica é mais eficaz do que apenas dividir seus dados históricos em dois conjuntos, usando o conjunto com o maior número de dados para treinamento, usando o outro conjunto para testes, e deixar por isso mesmo.
Quando você cross-validar seus dados, você está protegendo-se contra dados de teste escolhendo aleatoriamente que é muito fácil de prever - que lhe daria a falsa impressão de que o seu modelo é preciso. Ou, se acontecer de você pegar dados de teste que é muito difícil prever, você pode falsamente concluir que o seu modelo não está funcionando como você esperava.
Video: A-262 NOVIDADE ! ATERRAMENTO RESIDENCIAL! QUAL O MAIS ADEQUADO? HASTES EM LINHA OU TRIÂNGULO?
Validação cruzada é amplamente utilizado não só para validar a precisão dos modelos, mas também para comparar o desempenho de vários modelos.
Como equilibrar viés e variância
Viés e variância são duas fontes de erros que podem ocorrer enquanto você está construindo o seu modelo analítico.
Viés é o resultado da construção de um modelo que simplifica significativamente a apresentação das relações entre pontos de dados nos dados históricos utilizados para construir o modelo.
variação é o resultado de construir um modelo que seja explicitamente específico para os dados utilizados para construir o modelo.
Atingir um equilíbrio entre viés e variância - reduzindo a variância e tolerar algum viés - pode levar a um melhor modelo preditivo. Este trade-off geralmente leva a construção de menos modelos preditivos complexos.
Muitos algoritmos de mineração de dados foram criados para ter em conta este trade-off entre viés e variância.
Video: A-222 – DIAGRAMA UNIFILAR E MULTIFILAR E SUAS DIFERENÇAS
Como solucionar problemas de ideias
Quando você está testando seu modelo e você está indo a lugar nenhum, aqui estão algumas idéias para considerar que pode ajudá-lo a voltar à pista:
Sempre verifique o seu trabalho. Você pode ter esquecido algo que você assumiu foi correta, mas não é. Tais falhas poderiam mostrar-se (por exemplo) entre os valores de uma variável preditiva no seu conjunto de dados, ou na pré-processamento que você aplicou aos dados.
Video: Dicas para testes de modelo
Se o algoritmo que você escolheu não está produzindo qualquer resultado, tente outro algoritmo. Por exemplo, você experimentar vários algoritmos de classificação disponíveis e dependendo de seus dados e os objetivos de negócios de seu modelo, um dos que pode ter um melhor desempenho do que os outros.
Tente selecionar variáveis diferentes ou criar novas variáveis derivadas. Estar sempre à procura de variáveis que têm poderes de previsão.
consultar com frequência com os especialistas do domínio de negócios que podem ajudá-lo a fazer sentido dos dados, selecionar as variáveis, e interpretar os resultados do modelo.