A curva de erro e aprendizagem de máquina

O algoritmo gradiente descendente oferece um exemplo perfeito de como funciona o aprendizado de máquina. Você pode fornecê-lo com uma imagem intuitiva, e não apenas uma formulação matemática. Além disso, embora seja apenas um dos muitos métodos possíveis, gradiente descendente é uma abordagem amplamente utilizada que é aplicado a uma série de algoritmos de aprendizado de máquina, tais como modelos lineares, redes neurais e máquinas de gradiente aumentando.

gradiente descendente funciona uma solução, iniciando a partir de uma solução aleatória quando dado um conjunto de parâmetros (dados uma matriz feita de recursos e uma resposta). Em seguida, prossegue em várias iterações utilizando a realimentação da função de custo, alterando assim os seus parâmetros, com valores que aumentam gradualmente a solução inicial aleatória e reduzir o erro.

Mesmo que a otimização pode levar um grande número de iterações antes de alcançar um bom mapeamento, ele se baseia em alterações que melhoram a função de custo resposta mais (erro inferior) durante cada iteração. Aqui está um exemplo de um processo de otimização complexo com muitos mínimos locais (o mínimo de pontos na curva marcada com letras), onde o processo pode ficar preso (ele não continua após o mínimo de profundidade marcados com um asterisco) e não pode continuar sua descida.

função de custo
A plotagem de dados de parâmetros contra a saída da função custo.


Você pode visualizar o processo de otimização como uma caminhada no alto das montanhas, com os parâmetros sendo os diferentes caminhos para descer ao vale. Uma optimização gradiente descendente ocorre em cada passo. Em cada iteração, o algoritmo escolhe o caminho que reduz o erro máximo, independentemente da direcção tomada. A idéia é que, se medidas não são muito grandes (fazendo com que o alogorithm para saltar sobre o alvo), sempre seguindo a direção mais baixo resultará em encontrar o lugar mais baixo.

Infelizmente, este resultado nem sempre ocorre porque o algoritmo pode chegar a vales intermediários, criando a ilusão de que ele atingiu o alvo. No entanto, na maioria dos casos, gradiente descendente leva o algoritmo de aprendizado de máquina para descobrir a hipótese certa para mapear com sucesso o problema. Um ponto de partida diferente pode fazer a diferença. Ponto de partida x1 termina em direção a um mínimo local, enquanto x2 e x3 atingir o mínimo global.

ponto sobre o resultado começando
Visualizando o efeito do ponto sobre o resultado inicial.

Em um processo de otimização, você distinguir entre diferentes resultados de otimização. Você pode ter um mínimo global que é verdadeiramente o erro mínimo da função de custo, e você pode ter muitos mínimos locais - soluções que parecem produzir o erro mínimo, mas realmente não fazer (os vales intermédios onde o algoritmo fica preso). Como um remédio, dada a inicialização aleatória do processo de otimização, correndo a otimização muitas vezes é uma boa prática. Isso significa tentar diferentes sequências de descendente caminhos e não ficar preso na mesma mínimo local.


Publicações relacionadas