▷ Microsoft FastSpeech mudará a maneira como a IA reproduz vozes

A maioria dos assistentes virtuais que conhecemos hoje tem a capacidade de se comunicar por voz com seus usuários. Eles não apenas conseguem entender o que lhes dizem, mas também são capazes de reproduzir palavras e frases dos textos.

Devido à novidade dessa tecnologia – ou melhor, ao uso recente dela – ainda há muito campo a ser explorado. No momento, comandos de voz e movimento estão apenas começando a se desenvolver.

Como resultado, em muitas ocasiões, elas podem apresentar muitas falhas. A Microsoft estava ciente disso e, portanto, decidiu invadir e desenvolver seu próprio modelo para evitar cair nos erros que já são considerados comuns para esses sistemas.

Nasce uma nova maneira de fazer as coisas

Microsoft FastSpeech mudará a maneira como a IA reproduz vozes 2

Em colaboração com a Universidade de Zhejiang, a Microsoft desenvolveu uma nova inteligência artificial que a FastSpeech batizou. Como o próprio nome diz, uma das coisas que o caracteriza é sua capacidade superior de gerar conteúdo auditivo consistente em pouco tempo.

Essa IA é tratada através do estilo de processamento neural usado no aprendizado de máquina. Dessa forma, o programa tem a possibilidade de incorporar novos conhecimentos de seu ambiente em seu banco de dados para se tornar cada vez mais eficiente.

O que torna o FastSpeech diferente?

Microsoft FastSpeech mudará a maneira como a IA reproduz vozes 3

Em geral, os programas de geração de voz usados pela maioria dos assistentes virtuais ainda não estão em plena capacidade – incluindo Siri, Alexa e Google Assistant. Portanto, problemas como esses podem levar muito tempo para processar os dados e gerar a voz.

Isso levando em consideração que eles trabalham com um sistema que primeiro lida com o conteúdo como textos e depois gera os sons associados a cada sílaba ou palavra, um por um. Por outro lado, o FastSpeech pula esta primeira etapa e trabalha diretamente com os fonemas, o que permite que seja muito mais rápido.

Microsoft FastSpeech mudará a maneira como a IA reproduz vozes 4

De fato, este programa provou ser capaz de gerar e reproduzir vozes até 38 vezes mais rápido que os algoritmos convencionais. Mas isso não é tudo, de fato, ele também tem a possibilidade de ajustar sua fala de acordo com os tempos fonéticos. Ou seja, não comete erros de outras plataformas que apresentam todas as palavras em uma cadência monotonal que tira a fluência das frases.

FastSpeech na prática

Microsoft FastSpeech mudará a maneira como a IA reproduz vozes 5

Para testar todas essas promessas da FastSpeech, seus próprios criadores realizaram um experimento com ele. Eles tiraram de um banco de áudio todas as amostras disponíveis (cerca de 24 horas de áudio).

Em seguida, eles os dividiram em três grupos: aprender (treinar IA), testar (verificar sua capacidade) e validar (verificar os resultados do teste). Após ser submetido aos testes relevantes, o FastSpeech mostrou outros algoritmos desenvolvidos, como o Tacotron 2 do Google e ele conseguiu superar o Transformer TTS na capacidade de processar sentenças longas e complexas.

Além disso, seu uso mostrou que também era capaz de evitar um problema comum desses atores: a omissão de palavras. Graças ao sistema No FastSpeech, cada sílaba tem seu tempo e isso ajuda a garantir que nenhuma supere a outra, a ponto de fazê-la "desaparecer".

Referências:

FastSpeech: Text to Speech rápido, robusto e controlável: https://www.microsoft.com/en-us/research/publication/fastspeech-fast-robust-and-controllable-text-to-speech/

Table of Contents

vozes