10 tendências fonética de vanguarda do futuro

Fonética já percorreu um longo caminho desde os dias dos bons ol de Daniel Jones e seus colegas em Londres na virada do século. Tecnologia e comunicação de massa revolucionaram o campo da fonética, permitindo avanços fundadores nunca teria imaginado. Os seguintes pré-visualizações de algumas dessas novas direções surpreendentes.

Conteúdo

Treinando computadores para reconhecer emoções humanas na fala
Animando silício tratos vocais
Obtendo tubular e sintético
Video: dez tendências de tecnologia para 2017
Treinar com baldi e outros avatares
Ajudando a conversa muda com interfaces de voz silenciosas
Visualizar o movimento da língua para pacientes com avc
Classificando voz mais masculina de voz menos masculina
Video: tendÊncias & atualidades com paulo leoni pgm 52
Video: top 10 facts - 2016
Descobrir a síndrome de sotaque estrangeiro (fas)
Descobrir a genética do discurso
Dialetos para diversão e lucro correspondência

Treinando computadores para reconhecer emoções humanas na fala

Claramente, existem muitas situações em que reconhecendo emoção na voz pode ser importante. Pense em como sua voz pode tornar-se cada vez mais tensa como você espera no telefone para um operador de computador para (finalmente) te entregar a uma pessoa real. Ou mais a sério, considere as pessoas que trabalham em situações de emergência, como um operador 911. Grandes problemas, potencialmente fatais pode ocorrer se um operador 911 não pode entender o que você está dizendo.

Trabalhando com emoção na fala é um tema de pesquisa de ponta em muitos laboratórios em todo o mundo. Por exemplo, o Dr. Carlos Busso na Universidade do Texas em Dallas tem experimentado vozes emparelhamento informatizado e cabeças visuais que expressam as emoções de raiva, alegria e tristeza. Este trabalho comparou o discurso de atores e pessoas comuns em situações mais naturalista. A partir das gravações de áudio, Busso usa recursos de pitch para classificar as emoções. Ele então usa tecnologia de rastreamento de movimento para gravar os movimentos faciais dos oradores durante o discurso. Os resultados mostram que certas regiões da face são mais críticos para expressar certas emoções do que outros.

Linguistics e os cientistas agora podem usar os resultados destes estudos para criar mais crível avatares (Computadorizada do tipo humano caracteres), e para melhor compreender a perturbações, tais como a doença de Parkinson (na qual desintegração do sistema nervoso provoca uma perda de expressão facial), e autismo (em que frequência aos sinais facial parece ser um problema).

Animando silício tratos vocais

Diferentes maneiras pode ajudar a compreender o trato vocal humana. É uma maneira de estudar o corpo humano através de anatomia e fisiologia. Outra maneira é a construção de modelos do sistema e estudar as propriedades biomecânicas destes criações. Silicon tratos vocais são um novo tipo de modelo que pode ser usado para síntese de fala, a criação artificial de expressão por máquina.

O início de síntese de voz na verdade, remonta aos anos 1700 com uma máquina falante bagpipe semelhante constituído por foles de couro (para servir como os pulmões) e uma palheta (para servir como as cordas vocais). Embora este sistema guinchou o seu caminho através da fala, não foi possível decifrar muito sobre a origem da fala ou filtro através do estudo de seus componentes.

Hoje as pessoas permanecem fascinado por máquinas falantes, incluindo robôs e criações humanóides. Tais robôs de ajuda com animação e outros fins artísticos, bem como ajudar os pesquisadores a entender melhor os sistemas anatômicos.

Produzir um sistema de articulação semelhante à humana não é simples. O corpo humano tem densidade muito específica, o amortecimento, a elasticidade, e as propriedades de inércia que não são fáceis de replicar. As formas físicas em mudança do trato vocal também são difíceis de reproduzir mecanicamente. Por exemplo, a língua é um hydrostat muscular que preserva o seu volume quando mudar de forma. A língua alonga quando se projetava e humps quando retraído.

Dr. Atsuo Takanishi na Universidade de Waseda, no Japão passou décadas aperfeiçoando uma cabeça de silício que pode produzir vogais, consoantes, e fricativas em japonês. Você pode assistir a filmes de seus vários engenhocas, incluindo silício pregas vocais, línguas motorizados, e lábios acionadas por engrenagem e face.

Obtendo tubular e sintético

Um método de discurso sintetizar mais cerebral do que construir robôs envolve fazer maquetes eletrônicas ou matemáticos do sistema de produção da fala. Após os pesquisadores a entender esses sistemas complexos, eles podem criá-los e, em seguida, manipular esses sistemas em um computador para simular o sistema humano (embora eletronicamente). Gunnar Fant, que desenvolveu modelos da relação entre a anatomia fala humana e frequências formantes, liderou este tipo de trabalho na década de 1950. Esta empresa também se baseia em modelos físicos de Hermann von Helmholtz que descreveram ressonadores como individuais e ressonadores acoplados som de entrada forma.

As versões mais recentes dos modelos de tubo estão fazendo avanços com problemas difíceis, tais como replicar as vozes de mulheres e crianças, assim dando computadores a ilusão de que eles estão cantando com sucesso. Brad Story, um professor da Universidade do Arizona, está trabalhando em um protótipo chamado locutor tubo. Este sistema é baseado na fisiologia modelado das pregas vocais e do sistema de vias aéreas superiores. Seu design incorpora imagens de vídeo das pregas vocais e imagens de ressonância magnética do trato vocal tomada durante discurso. Usando ambos articulatório e restrições acústicas, História e sua equipe pode modelar e mover articuladores virtuais para criar movimentos suaves, fala-like. O resultado é uma onda de som que pode ser ouvido, analisado e comparado com o discurso real.

falante tubo foi modificado em alguns aspectos estranhos e interessantes. Por exemplo, os modelos tradicionais de discurso sugerem que os componentes de voz e de filtro deve ser considerado em separado. No entanto, para alguns tipos de voz cantada (e talvez para voz infantil), isso pode não ser o caso. As versões recentes do locutor tubo testei interações não lineares entre a origem eo filtro como novas combinações possíveis para melhor modelo tais tipos de voz e música.

Video: Dez tendências de tecnologia para 2017

Outro modelo usando designs tubulares ganhou um concurso recente Europeu canção síntese de fala não só para fazer o discurso falado plausível, mas também para cantar (você pode testemunhar o espetáculo lúgubre de tratos vocais computadorizadas 3D transparentes, desenvolvido pelo Dr. Peter Birkholz, cantando um dueto).

Treinar com Baldi e outros avatares

agentes de instrução, como avatares que são projetados para serem oradores especialistas de várias línguas, são outra tendência interessante em fonética. Tais sistemas podem ajudar instrutores, dando prática adicional com planos de aula, auxiliando na formação com segunda língua de aprendizagem, trabalhando com a dificuldade de audição, ou indivíduos tendo em particular dificuldade interagindo com parceiros da fala ao vivo (como pessoas com autismo).

Sob a direção do Professor Dominic Massaro na Universidade da Califórnia em Santa Cruz, os pesquisadores vêm-se com uma cabeça falante 3D chamado Baldi, capaz de fazer muitas tarefas. Por exemplo, os estudantes japoneses Baldi tem ajudado a desenvolver seu sotaque Inglês e ajudou na educação de surdos. Em versões mais recentes, a cabeça de Baldi tornou-se transparente, a fim de mostrar melhor seu trato vocal para que os alunos de línguas em que posições especiais da língua e faringe são importantes (como o árabe) podem ver o que está acontecendo. Baldi tem mesmo pernas germinadas, braços, e um corpo, porque os gestos de um avatar pode em algumas situações adicionar a uma situação mais eficaz de aprendizagem da língua. Este tipo de pesquisa sugere que o trabalho com avatares pode segurar um futuro ousado e promissor para a fonética.

Ajudando a conversa muda com interfaces de voz silenciosas

Silenciosa interface de fala (SSI) pode ser especialmente útil em aplicações militares, como para o pessoal em cockpits altos ou veículos que os impedem de ouvir-se falar ou de ser gravado por um microfone.

Além disso, SSI pode ajudar outras pessoas que não podem produzir som audível de suas pregas vocais, mas a sua articuladores (Língua, lábios e mandíbula) ainda funcionam. Ter uma fonte vocal artificial iria aliviar este problema. Se a posição da língua da pessoa pode ser monitorado em tempo real, e esta informação foram alimentados a um computador, os dois poderiam ser acoplado com uma fonte de vocalização e, presto, discurso.

Vários protótipos de trabalho emocionantes para SSIs são atualmente em desenvolvimento. A seguir foco em princípios acústicos articulatórios e tecnologias de rastreamento articulador de ponto de carne:

Pesquisadores na África do Sul está trabalhando em um electropalatography sistema usando (EPG).
Cientistas da Universidade da Geórgia estão explorando o uso de um sistema de rastreamento de ímã permanente.
Outros pesquisadores estão trabalhando em lábios e língua sistemas de rastreamento.

Um dia, o objetivo final é ter pessoas que não podem falar, devido à perda da laringe simplesmente retirar seu telefone (ou um dispositivo mais ou menos desse tamanho), apertar um botão e, em seguida, ter uma qualidade sintetizado voz alta falam por -los como eles articulam.

Visualizar o movimento da língua para pacientes com AVC

Muitos indivíduos com dano cerebral cortical esquerda têm apraxia de fala (AOS), um problema controlando a produção dos sons da fala. Embora esses pacientes geralmente entender a linguagem razoavelmente bem, se eles querem pronunciar um certo som, diga “s” na palavra “see “, o som pode sair errado, como como“she.”AOS é muito frustrante para os pacientes, porque eles normalmente sabem que eles produziram um som em erro. Eles geralmente se sentem como eles sabem o que dizer, mas eles simplesmente não pode tirá-lo.

Um princípio comprovado conhecido por ajudar esses pacientes é uma prática (a prática torna perfeito), particularmente porque tais indivíduos tendem a parar de falar devido à frustração, depressão e ter outros membros da família assumir e falar por eles. Outro princípio terapêutico importante é o treinamento articulatório. A Universidade de Dallas no laboratório Texas (em conjunto com colegas da Universidade de Pittsburgh) está dando indivíduos com feedback visual AOS relativos a posição da língua durante a fala. Esta intervenção é baseado na premissa de que indivíduos com AOS ter um colapso com o seqüenciamento de som e som implementar, mas os sistemas de seu olho a língua de feedback monitoramento estão intactos.

Uma série de estudos descobriram que este método pode ajudar os indivíduos com AOS aumentar a precisão da sua produção de som após acidente vascular cerebral. O trabalho até à data se baseou em informações de um único ponto de dados articulatório (como a ponta da língua). O trabalho futuro vai dar aos pacientes um avatar 3D que lhes mostra o movimento on-line da sua língua, enquanto eles falam. Se o fizer, vai permitir o tratamento de uma gama mais ampla de sons de fala e permitirá que os clínicos para tratar a forma de articulação, bem como local.

Classificando voz mais masculina de voz menos masculina

Um número de propriedades na voz pode realmente indicam masculinidade. Foneticistas têm condições para isso:

discurso mais masculino (MMS)
discurso menos masculina (LMS)

MMS é menor em frequência fundamental (O passo de uma pessoa ouve). Os dois também parecem ter diferenças na espectral qualidade (Como agudo a é hissiness) dos fricatives. Além disso, os indivíduos MMS tem espaço vogal menos pronunciada do que indivíduos julgados LMS (que significa LMS locutores usam maiores excursões língua ao falar).

Video: TENDÊNCIAS & ATUALIDADES COM PAULO LEONI PGM 52

Empresas ou governos podem ser capazes de usar essas informações para projetar um macho contra detector voz feminina e, talvez, um detector ainda mais detalhada (em linha reta contra gay) para tipos simples de julgamentos. No entanto, o transporte do género através da fala é mais complicado do que uma aproximação geral das propriedades biológicas do sexo oposto. Isto é, apesar do que a cultura popular, muitas vezes indica, o discurso dos homens homossexuais não parece ser apenas uma versão feminized da fala de homens heterossexuais (ou o discurso de lésbicas uma versão masculinizada do discurso de mulheres heterossexuais).

Ron Smyth, professor na Universidade de Toronto, estudou as diferenças entre mais e menos discurso masculino-som gay. Seu trabalho revela que a seguinte mistura complexa de propriedades acústicas caracteriza “discurso-som gay”:

Video: Top 10 Facts - 2016

Vogais produzido mais perto das bordas do espaço vogal
Pare de consoantes com tempos de início mais voz (VOTs)
Mais longos / s / e / ʃ / fricatives com frequências de pico mais elevados
Mais luz “l” alofones

O trabalho de Smyth também mostra que muitos desses julgamentos também dependem de suposições feitas pelos ouvintes, os tipos de amostras de fala fornecido, e sobre o gênero e orientação sexual dos próprios ouvintes. Orientação sexual e de expressão é um tema em curso de investigação para determinar se os estereótipos populares-culturais são baseadas em nada tangível, e se a percepção das pessoas de orientação sexual (das pessoas gays auto-proclamado gaydar) É o que afirma ser (Seu trabalho mostrou que gaydar das pessoas com base no discurso geralmente não é confiável.)

Estas questões se relacionam com o campo da sociolingüística, o estudo da relação entre linguagem e sociedade. Estudos têm demonstrado, por exemplo, que os jovens (heterossexuais) homens irá reduzir sua frequência fundamental quando uma pergunta fêmea novo, em vez de um macho, entra na sala. Estes homens são, presumivelmente, tornando-se atrativos através de uma voz mais baixa. Se os resultados de estudos anteriores são precisos, a pesquisa poderia supor que sob as mesmas condições experimentais, as mulheres aumentaria o breathiness de sua voz, uma característica conhecida para aumentar a percepção da fala feminina mais atraente.

Descobrir a síndrome de sotaque estrangeiro (FAS)

Síndrome do sotaque estrangeiro (FAS) é um distúrbio motor de fala onde adultos presentes com discurso consonância estrangeira como o resultado de anormalidades mistiming e prosódicos resultantes de distúrbio do cérebro. Ele continua a fascinar o público e cientistas. Estudo de indivíduos com esse transtorno pode, potencialmente, dar uma imagem melhor do que os sistemas cerebrais estão envolvidas na produção e compreensão de sotaque.

Até agora, a maioria dos casos FAS foram indivíduos que falam Inglês nativo, embora cada vez mais outras línguas européias também estão sendo gravados. Agora, vários casos não-indo-europeu (em hebraico, japonês e árabe) foram registrados. Os pesquisadores estão interessados em que variedades de línguas são afetados, e os pesquisadores questionam até que ponto stress e ou fatores prosódicos baseado em sílabas (normalmente quantificado como Índice de Variabilidade Pairwise, (PVI)) Desempenha um papel em se esses pacientes são percebidos como estranhos, e se existem de alta PVI e subtipos de baixo PVI FAS.

Outro enigma na imagem FAS é como casos que resultam de lesões focais francas (tais como acidente vascular cerebral ou de tumor) pode estar relacionado com os de etiologias menos específicas ou desconhecidos (tais como a enxaqueca, a alergia, ou possivelmente causas psicogénicas). Um indivíduo com uma lesão na região do cérebro bem estabelecido conhecido para corresponder a função de voz (como a zona de linguagem perisylviana) pode ser assumido como tendo uma causa plausível para FAS. A situação para os indivíduos sem causa fisiológica conhecida é menos clara.

Muitos pacientes encaminhados para a clínica na Universidade do Texas em Dallas por suspeita FAS foram diagnosticados com Distúrbio de conversão. Esta é uma condição em que os pacientes apresentam sintomas neurológicos que a avaliação médica não pode explicar. distúrbio de conversão não é simulação de doença (Fingindo doença) e pode afetar a fala, no entanto, esta não é a mesma coisa que a FAS. Para melhor avaliar FAS, os profissionais devem trabalhar em estreita colaboração em uma equipe que inclui o ideal é um psicólogo e psiquiatra. Incluindo testes fonéticos para descartar intencional, acidental ou imitada modificação acento também é importante.

Descobrir a genética do discurso

Foneticistas tornaram-se mais interessado no movimento rápido e emocionante campo da genética para encontrar a base da fala e linguagem. Um tumulto começou na década de 1980 com a descoberta de uma família em Londres, e teve uma série de problemas de fala e linguagem relacionadas com a família. Entre os vários membros da família (chamado KE) eram nove irmãos. Quatro desses irmãos tinham pronunciado problemas com a compreensão, a compreensão de frases como “O menino está sendo perseguido pelo tigre” para significar “O menino está perseguindo o tigre.” Eles também caiu sons no início das palavras, como dizendo “arte ”quando se pretende dizer‘torta’. De tal comportamento, ficou claro que havia algo familiar relacionado particularmente afetando sua fala e linguagem.

Em meados dos anos 1990, um grupo de geneticistas da Universidade de Oxford começou a procurar o gene danificado nesta família. Eles descobriram este distúrbio resultou em que apenas um gene foi passada a partir de uma geração para a seguinte (autossômica dominante) E não foi ligada ao sexo. Outras investigações fixado o gene para uma área no cromossoma 7, que foi chamado de perturbações do discurso e linguagem 1 (SPCH1). Os geneticistas procedeu para identificar a localização exacta da quebra do cromossoma 7, no caso de uma outra criança com uma intervenção genética e distúrbio de linguagem. Descobriu-se para se relacionar com os casos KE em uma maneira surpreendente: Ambos algo codificado chamado Forkhead Box Protein (FOXP2), uma proteína de transcrição que codifica outros factores necessários para sistemas neurológico, intestino, e pulmão.

FOXP2 está associada com a aprendizagem vocal em jovens pássaros canoros, ecolocalização dos morcegos, e, possivelmente, em outras espécies vocais-learning, como as baleias e os elefantes. Os ratinhos com genes humanos-Foxp2 splicing em seu DNA emitida baixas guinchos funk e cresceu diferentes padrões neuronais no cérebro em regiões envolvidas com a aprendizagem.

Como todas as histórias científicas emocionante, a história FOXP2 não é sem controvérsia. Muitos relatórios populares destas descobertas fazem reivindicações simplificados, com vista para a base genética multifactorial para a fala ea linguagem. Por exemplo, a descida da laringe humana foi sem dúvida importante na tomada de discurso fisicamente possível, em comparação com o trato vocal dos chimpanzés. No entanto, este processo genético não parecem provavelmente ligada à Foxp2, sugerindo que outros loci do gene são indiscutivelmente envolvido. De fato, outros genes já estão surgindo. Foxp2 desliga um gene chamado contactina-associado proteína-like 2 (CNTNAP2). Este gene foi associado tanto em deficiência específica língua (SLI) e autismo. As células nervosas do cérebro em desenvolvimento, particularmente em circuitos associados com a linguagem, implantar CNTNAP2, que codifica a proteína.

dialetos para diversão e lucro correspondência

Muitas pessoas mudar seu sotaque falado com o curso de um dia para coincidir com o sotaque das pessoas a que eles estão falando. Você pode chamar isso de ser uma esponja acento, embora seja mais tecnicamente referido como correspondência dialeto ou registar correspondência.

correspondência dialeto é muito natural para as pessoas. Na verdade, tornou-se uma das áreas quentes em reconhecimento de voz de computador para o potencial de combinar um pedido telefone call-in com uma resposta on-line combinados em dialeto. Porque as pessoas parecem apreciar a associação de grupo, a idéia é fazer com que o computador reconhecer rapidamente o seu dialeto e combiná-lo com um amigo de telefone ou voz computadorizado que combina com você.

Os pesquisadores estão projetando sistemas de computador com reconhecimento de unidade de telefone e módulos de adaptação da unidade de telefone. sistemas de telefonia que utilizam tais tecnologias pode determinar o sotaque da pessoa chamada, extrair as características de seu sotaque, e modificar a sonoridade sintetizado responder ao chamador pela melhor correspondência aquele sotaque da pessoa. Se feito corretamente, pode levar a uma maior inteligibilidade e talvez uma melhor sensação subjetiva da conversa. Por outro lado, se não for bem feito, as pessoas podem sentir-se imitada ou ridicularizado. Você pode apenas imaginar como esse tipo de coisa pode ser usado em sistemas de datação computadorizados.

correspondência dialeto é mesmo natural para as baleias orca, golfinhos e morcegos Lança-cheirado também. Orcas e golfinhos usam guinchos coordenados e assobios para decidir o que eles vão caçar e viajar. Estudo de morcegos Lança-cheirado mostrou que as fêmeas corresponder às suas chamadas para recrutar outros membros de seu poleiro quando encontram uma fonte de alimento rico e coletivamente defender os seus alimentos de outros morcegos. De acordo com biólogos, esses sons de animais são todos os casos de sinalização para adesão ao grupo.