Aprendizagem profunda em máquinas

Video: Skinner fala sobre a Maquina de Ensinar

Depois backpropagation, a próxima melhoria em redes neurais levou a aprendizagem profunda em máquinas. A pesquisa continuou, apesar do inverno AI e redes neurais começou a tirar vantagem dos desenvolvimentos em CPUs e GPUs (unidades de processamento gráfico mais conhecido por sua aplicação em jogos, mas que na verdade são unidades computacionais poderosos para cálculos matriciais e vetoriais). Essas tecnologias tornam redes neurais formação uma tarefa realizável em um tempo mais curto e acessível a mais pessoas.

A pesquisa também abriu um mundo de novas aplicações. As redes neurais podem aprender com enormes quantidades de dados, e porque eles são mais propensos a alta variância do que preconceito, eles podem tirar proveito de dados grandes, criando modelos que continuamente têm melhor desempenho, dependendo das quantidades de dados que você alimentá-los. No entanto, você precisa de grandes e complexas redes para determinadas aplicações (para aprender características complexas, como as características de uma série de imagens) e, assim, incorrer em problemas como o gradiente desaparecendo.

Na verdade, quando a formação de uma grande rede, o erro redistribui entre os neurônios, favorecendo as camadas mais próximo da camada de saída. Camadas que estão mais longe recebem erros menores, às vezes muito pequeno, tornando o treinamento lento, se não impossível. Graças aos estudos de estudiosos como Geoffrey Hinton, novas reviravoltas ajudar a evitar o problema do gradiente desaparecendo. O resultado definitivamente ajuda de uma rede maior, mas a aprendizagem profunda não é apenas sobre redes neurais com mais camadas e unidades.

Além disso, algo intrinsecamente qualitativa mudou na aprendizagem profunda em comparação com redes neurais rasas, mudando o paradigma de aprendizagem de máquina, desde a criação de funcionalidades (características que tornam a aprendizagem mais fácil) para caracterizar a aprendizagem (características complexas criadas automaticamente com base as características reais).

Grandes jogadores como Google, Facebook, Microsoft e IBM viu a nova tendência e desde 2012 começaram a aquisição de empresas e contratação de especialistas (Hinton agora trabalha com Google- LeCun lidera pesquisas Facebook AI) nos novos campos de aprendizagem profunda. O projeto Cérebro Google, dirigido por Andrew Ng e Jeff Dean, juntos 16.000 computadores para calcular uma rede de aprendizagem profunda com mais de um bilhão de pesos, permitindo assim aprendizado não supervisionado a partir de vídeos do YouTube.

Video: Aprendizado de Máquinas - Treinando neurônio com mínimo erro de classificação

Há uma razão por que a qualidade da aprendizagem profunda é diferente. Claro, parte da diferença é o aumento da utilização de GPUs. Juntamente com paralelismo (mais computadores colocados em clusters e operando em paralelo), GPUs permitem que você aplique com sucesso pré-treinamento, novas funções de ativação, redes convolucionais e drop-out, um tipo especial de regularização diferente de L1 e L2. Na verdade, estima-se que a GPU pode executar determinadas operações 70 vezes mais rápido do que qualquer CPU, permitindo um corte nos tempos de formação de redes neurais de semanas para dias ou mesmo horas.



Ambos novas funções de ativação pré-treinamento e ajudar a resolver o problema do gradiente desaparecendo. Novas funções de activação oferecer funções melhor derivados, e pré-formação ajuda a iniciar uma rede neural com melhores pesos iniciais que requerem apenas alguns ajustes nas últimas partes da rede.

técnicas de pré-treinamento avançadas, tais como Máquinas Boltzanman restritos, Autoencoders, e Redes profunda crença elaborar dados de forma não supervisionada, estabelecendo pesos iniciais que não mudam muito durante a fase de formação de uma rede de aprendizagem profunda. Além disso, eles podem produzir melhores características que representam os dados e, assim, alcançar melhores previsões.

Dada a elevada dependência de redes neurais para tarefas de reconhecimento de imagem, aprendizagem profunda alcançou grande impulso graças a um certo tipo de rede neural, as redes neurais convolucionais. Descoberto na década de 1980, como redes agora trazer resultados surpreendentes por causa das muitas adições de aprendizagem profundas.

Para entender a idéia por trás de redes neurais convolucionais, pense sobre as circunvoluções como filtros que, quando aplicado a uma matriz, transformar certas partes da matriz, fazer outras partes desaparecem, e fazer outras partes se destacam. Você pode usar filtros de convolução para as fronteiras ou para formas específicas. Esses filtros também são úteis para encontrar detalhes em imagens que determinam o que a imagem mostra.

Os seres humanos sabem que um carro é um carro, porque ele tem uma certa recursos de forma e certos, não porque tenham visto anteriormente todo o tipo de carros possíveis. Uma rede neural padrão está vinculado a sua entrada, e se a entrada é uma matriz de pixels, reconhece formas e recursos com base em sua posição na matriz. redes neurais Convolution pode elaborar imagens melhor do que uma rede neural padrão porque

  • A rede especializada neurónios específicos para reconhecer certas formas (graças a convoluções), de modo que mesmo a capacidade para reconhecer uma forma não precisa aparecer em diferentes partes da rede.
  • Por amostragem partes de uma imagem em um único valor (uma tarefa chamada pooling), Você não precisa amarrar estritamente formas para uma determinada posição (o que tornaria impossível para girá-las). A rede neural pode reconhecer a forma em cada rotação ou distorção, garantindo assim uma alta capacidade de generalização da rede convolucional.

Finalmente, cair fora é um novo tipo de regularização que é particularmente eficaz com redes convolucionais profundas, mas também funciona com todas as arquiteturas de aprendizagem profundas, que atua removendo temporariamente e aleatoriamente conexões entre os neurônios. Esta abordagem remove conexões que coletam único ruído a partir de dados durante o treino. Além disso, esta abordagem ajuda a rede de aprender a confiar em informações críticas provenientes de diferentes unidades, aumentando assim a força dos sinais corretos passaram ao longo das camadas.


Publicações relacionadas