Complexidade do modelo na aprendizagem de máquina
Assim como a simplicidade de formulações é um problema no aprendizado de máquina, automaticamente recorrer ao mapeamento formulações muito intricados nem sempre fornecer uma solução. Na verdade, você não sabe a verdadeira complexidade do mapeamento resposta requerido (como se ele se encaixa em uma linha reta ou em uma curva). Portanto, assim como a simplicidade pode criar uma resposta inadequada, também é possível para representar a complexidade de dados com um mapeamento excessivamente complexa.
Nesse caso, o problema com um mapeamento complexo é que ele tem muitos termos e parâmetros - e, em alguns casos extremos, o algoritmo pode ter mais parâmetros do que os seus dados tem exemplos. Porque você deve especificar todos os parâmetros, o algoritmo, em seguida, começa a memorizar tudo nos dados - não apenas os sinais, mas também o ruído aleatório, os erros e todas as características pouco específicas de sua amostra.
Em alguns casos, pode mesmo apenas memorizar os exemplos como elas são. No entanto, a menos que você está trabalhando em um problema com um número limitado de recursos simples, com poucos valores distintos (basicamente um conjunto de dados brinquedo, ou seja, um conjunto de dados com alguns exemplos e recursos, assim simples para lidar com e ideal para exemplos), você está altamente improvável encontrar o mesmo exemplo duas vezes, dado o enorme número de combinações possíveis de todos os recursos disponíveis no conjunto de dados.
Quando a memorização acontece, você pode ter a ilusão de que tudo está funcionando bem, porque o seu algoritmo de aprendizado de máquina parece ter equipado os dados de exemplo em tão bem. Em vez disso, os problemas podem rapidamente tornar-se evidente quando você começa a ter que trabalhar com dados de fora da amostra e você percebe que ela produz erros em suas previsões, bem como erros que realmente mudam muito quando você reaprender a partir dos mesmos dados com um ligeiramente diferente abordagem.
Video: Machine Learning (aprendizado de máquina)
Overfitting ocorre quando o algoritmo tenha aprendido muito de seus dados, até o ponto de formas curva de mapeamento e regras que não existem. Qualquer pequena mudança no procedimento ou nos dados de treinamento produz previsões erráticos.