Recorrendo a validação cruzada no aprendizado de máquina

Às vezes, a aprendizagem de máquina requer que você vai precisar de recorrer a validação cruzada. Um problema visível com o conjunto de divisão trem / teste é que você está realmente a introdução de viés em seu teste porque você está reduzindo o tamanho dos seus dados de treinamento dentro da amostra. Quando você divide seus dados, você pode ser realmente manter alguns exemplos úteis fora do treinamento. Além disso, às vezes os seus dados é tão complexo que um teste definida, embora aparentemente semelhante ao conjunto de treinamento, não é realmente semelhante, porque combinações de valores são diferentes (o que é típico de conjuntos de dados altamente dimensionais).

Video: Ajuste de hiperparâmetros por validação cruzada no Weka

Estas questões adicionar à instabilidade dos resultados da amostragem, quando você não tem muitos exemplos. O risco de dividir seus dados de forma desfavorável também explica por que a divisão de trem / teste não é a solução preferida pela máquina praticantes aprender quando você tem que avaliar e ajustar uma solução de aprendizagem de máquina.

Validação cruzada baseado em k-dobras é realmente a resposta. Ele se baseia em divisão aleatória, mas desta vez ele divide seus dados em um número k de dobras (porções de seus dados) de igual tamanho. Em seguida, cada dobra é estendeu por sua vez, como um conjunto de teste e os outros são usados ​​para treinamento. Cada iteração utiliza uma dobra diferente como um teste, a qual produz uma estimativa de erro.

Video: How to Do Sentiment Analysis - Intro to Deep Learning #3



Na verdade, após ter terminado o teste sobre uma dobra contra os outros usados ​​como formação, uma dobra sucessiva, diferente do anterior, realiza-se para fora e o procedimento é repetido para produzir outra estimativa de erro. O processo continua até que todos os k-dobras são usados ​​uma vez como um conjunto de teste e você tem um número k de erro estima que você pode calcular em uma estimativa média de erro (a pontuação de validação cruzada) e um erro padrão das estimativas.

validação cruzada
A representação gráfica de como validação cruzada funciona.

Este procedimento oferece as seguintes vantagens:

  • Ele funciona bem, independentemente do número de exemplos, porque, aumentando o número de dobras usados, você está realmente aumentando o tamanho de seu conjunto de treinamento (k maior, maior conjunto de treinamento, redução da polarização) e diminuir o tamanho do conjunto de teste.
  • Diferenças na distribuição de dobras individuais não importam tanto. Quando uma dobra tem uma distribuição diferente em comparação com os outros, é utilizado apenas uma vez, como um conjunto de teste e é misturado com os outros, como parte do conjunto de treino durante os testes restantes.
  • Você está realmente testar todas as observações, para que você está testando plenamente a sua hipótese de aprendizado de máquina utilizando todos os dados que você tem.
  • Ao tomar a média dos resultados, pode-se esperar um desempenho preditivo. Além disso, o desvio padrão dos resultados pode dizer o quanto variação que você pode esperar em reais dados out-of-sample. maior variação nas performances de cross-validado informa sobre dados extremamente variegadas que o algoritmo é incapaz de travar corretamente.

Usando k-fold cross-validation é sempre a melhor opção a menos que os dados que você está usando tem algum tipo de ordem que importa. Por exemplo, pode envolver uma série de tempo, tais como vendas. Nesse caso, você não deve usar um método de amostragem aleatória, mas sim contar com uma fração de trem / teste com base na seqüência original, de modo que a ordem é preservada e você pode testar nos últimos exemplos de que série ordenada.


Publicações relacionadas