Treinamento, validação e testes na aprendizagem de máquina

Video: TESTE FÍSICO PROFISSIONAL & MELHOR HAMBÚRGUER DO MUNDO!!!- SOCCER CAMP DAY #3

Em um mundo perfeito, você poderia realizar um teste sobre dados que o algoritmo de aprendizado de máquina nunca aprendi com antes. No entanto, à espera de novos dados nem sempre é viável em termos de tempo e custos.

Video: TFM - Teste Físico Militar (dicas e treino)

Como primeiro remédio simples, você pode dividir aleatoriamente seus dados em treinamento e teste conjuntos. A divisão comum é desde 25 a 30 por cento para os testes e os restantes 75 a 70 por cento para a formação. Você dividir seus dados consistindo em sua resposta e recursos, ao mesmo tempo, manter a correspondência entre cada resposta e suas características.

O segundo remédio ocorre quando você precisa ajustar seu algoritmo de aprendizagem. Neste caso, os dados de teste de divisão não é uma boa prática porque provoca outro tipo de overfitting chamada espionagem. Para superar snooping, você precisa de uma terceira divisão, chamado um conjunto de validação. A divisão sugerida é ter seus exemplos dividido em terços: 70 por cento para a formação, 20 por cento para validação, e 10 por cento para o teste.



Você deve executar a divisão de forma aleatória, ou seja, independentemente da ordenação inicial dos dados. Caso contrário, o teste não será confiável, porque ordenação poderia causar superestimação (Quando há algum ordenação significativa) ou subestimação (Quando a distribuição difere por muito). Como solução, você deve garantir que a distribuição conjunto de teste não é muito diferente da distribuição de treinamento, e que a ordenação seqüencial ocorre nos dados de divisão.

Por exemplo, verificar se os números de identificação, quando disponíveis, são contínuas em seus sets. Às vezes, mesmo se você respeitar estritamente por amostragem aleatória, você não pode sempre obter distribuições semelhantes entre os conjuntos, especialmente quando o seu número de exemplos é pequena.

Video: Centro de Treino e Avaliação Desportiva - tiagoaragao.com

Quando o seu número de exemplos n é alta, como NGT; 10.000, você pode com muita confiança criar um conjunto de dados aleatoriamente dividida. Quando o conjunto de dados é menor, comparando as estatísticas básicas, como média, moda, mediana, variância e do outro lado da resposta e os recursos nos conjuntos de treinamento e teste o ajudará a entender se o conjunto de teste é inadequado. Quando você não tem certeza de que a divisão é certo, apenas recalcular um novo.


Publicações relacionadas