Como naturallyspeaking aprende a reconhecer a fala

Video: Bob o trem número português aventura | aprender os números em português | bob a compilação de trem

Computadores são muito inteligente quando se trata de coisas cérebro-esticar como jogar xadrez e preenchimento de declarações fiscais, de modo que você pode pensar que eles seriam gênios em atividades “simples” como reconhecer rostos ou entender a fala.

Mas depois de cerca de 50 anos de tentativas para tornar os computadores fazer essas coisas simples, os programadores têm chegado à conclusão de que a habilidade não é simples, apenas porque os seres humanos dominá-lo facilmente. Na verdade, nossos cérebros e olhos e ouvidos estão repletos de sensores sofisticados e equipamentos de processamento que ainda corre anéis em torno de alguma coisa que podemos projetar em silício e metal.

Nós, seres humanos acho que é simples de entender o discurso porque todo o trabalho duro é feito antes de se tornar consciente disso. Para nós, parece como se as palavras inglesas apenas pop em nossas cabeças assim que as pessoas abrem suas bocas. A natureza inconsciente (ou pré-consciente) do processo faz com que seja duplamente difícil para programadores de computador para imitar.

Para se ter uma ideia de por que os computadores têm tantos problemas com a fala, pense em algo que eles são muito bons em reconhecer e compreensão: números de telefone touch-tone. Esses blips e bloops sobre as linhas de telefone são muito mais significativo para computadores do que com pessoas. Várias características importantes fazem os sons do telefone uma linguagem fácil para computadores, listados abaixo. Inglês, por outro lado, é completamente diferente.



  • O touch-tone “vocabulário” tem apenas 12 “palavras” nele. Depois que você sabe as notas para as dez dígitos Plus * e #, você está dentro. Inglês, por outro lado, tem centenas de milhares de palavras.

    Video: Reconhecimento de voz que funciona

  • Nenhuma das palavras o mesmo som. No telefone touch-tone, o “1” tom é bem diferente do “7” tom. Mas Inglês tem homônimos, como homônimos novos e gnu, e de perto, como alegre e casar com ela. Às vezes, frases inteiras soam iguais: “Os filhos levantar carne” e “O sol raios se encontram”, por exemplo.

  • Todos os “falantes” da língua dizer as palavras da mesma maneira. Pressione o botão 5 em qualquer telefone, e você terá exatamente o mesmo tom. Mas um homem idoso e uma menina de 10 anos de idade, usar tons muito diferentes quando Fala- e as pessoas da Grã-Bretanha, Canadá e Estados Unidos pronunciar as mesmas palavras em inglês de maneiras muito diferentes.

  • Contexto é sem sentido. Para o telefone, um 1 é um 1 é uma 1. Como você interpreta o tom não depende do número anterior ou o próximo número. Mas em Inglês escrito, o contexto é tudo. Faz sentido de “ir para Nova York.” Mas faz muito menos sentido de “ir duas New York” ou “ir demasiado New York.”


Publicações relacionadas