Connection Information

To perform the requested action, WordPress needs to access your web server. Please enter your FTP credentials to proceed. If you do not your credentials, you should your web host.

Connection Type

Connection Information

To perform the requested action, WordPress needs to access your web server. Please enter your FTP credentials to proceed. If you do not your credentials, you should your web host.

Connection Type

▷ Como algumas empresas estão resolvendo os problemas com linguagem e IA

Como algumas empresas estão resolvendo os problemas com linguagem e IA

Nota: O seguinte artigo irá ajudá-lo com: Como algumas empresas estão resolvendo os problemas com linguagem e IA

Como um resmungão crônico, tive alguns desafios significativos para fazer o Alexa da Amazon compreender meus comandos. Acho que tenho que enunciar muito claramente, e tenho um sotaque norte-americano muito suave. É ainda pior para meus amigos nativos de Massachusetts que têm um sotaque muito forte de Boston.

VEJO: Calendário editorial TechRepublic : políticas de TI, listas de verificação, kits de ferramentas e pesquisas para (TechRepublic )

Claramente, o Alexa é um produto básico de inteligência artificial (IA) no nível do consumidor, mas o uso da IA ​​nos negócios exige um padrão mais alto. Ser capaz de inserir corretamente um idioma que possa ser entendido de forma consistente pelo software de IA é essencial para o retorno do investimento de uma empresa em tais produtos.

Falei sobre o conceito de linguagem, como ela interage com a IA e como, com Ian Firth, vice-presidente de produtos da Speechmatics, uma empresa de desenvolvimento de software de reconhecimento de fala, e Dan Kobran, cofundador da Paperspace, uma plataforma de desenvolvimento de IA.

Scott Matteson: Qual é a lacuna de sotaque da IA ​​e quais desafios ela causa?

Ian Firth: Os humanos muitas vezes podem achar difícil se comunicar mesmo quando são da mesma cidade ou país – mesmo que o idioma seja o mesmo. A variedade de sotaques e dialetos em um único idioma pode ser enorme, e tentar entendê-los como um ser humano é um desafio por si só.

Quando se trata de tecnologia de reconhecimento automático de fala (ASR), o mesmo se aplica. O mecanismo é necessário para entender variedades de sotaques, dialetos e até gírias em um único idioma. Para obter o valor do que as pessoas estão dizendo – como um humano ou mecanismo ASR – você precisa entender o que está sendo dito.

Sotaques e dialetos adicionam uma barreira extra à capacidade de comunicação. Quando se trata de tecnologia ASR, a voz precisa ser compreendida e acionada de maneira simples e fácil. O desafio para a tecnologia de fala é quebrar a barreira do idioma e fornecer compreensão, contexto e valor a uma conversa ou palestrante.

Scott Matteson: Que soluções possíveis estão envolvidas?

Ian Firth: Existem duas soluções possíveis quando se trata de enfrentar o desafio com sotaques e dialetos linguísticos.

A primeira é criar um mecanismo de reconhecimento de fala projetado para funcionar melhor para modelos de linguagem com sotaque específico. Por exemplo, isso significa criar um pacote de idiomas para espanhol mexicano, espanhol espanhol e assim por diante. Com essa abordagem, você obtém grande precisão para um sotaque específico e, academicamente falando, obtém resultados altamente precisos na maioria dos casos. Essa abordagem requer o modelo certo, para o discurso certo, e há circunstâncias em que essa solução não funciona.

VEJO: Processamento de linguagem natural: uma folha de dicas (TechRepublic)

A segunda solução é construir um mecanismo de reconhecimento de fala em qualquer contexto que entenda todos os sotaques do espanhol, independentemente da região, sotaque ou dialeto. Essa abordagem tem seus próprios desafios em relação à capacidade técnica de construir um mecanismo dessa maneira e ao tempo que leva para construir. No entanto, os resultados falam por si com experiências de usuário e cliente sem atrito e perfeitas.

Scott Matteson: Como funcionam as soluções do ponto de vista tecnológico?

Ian Firth: ASR era uma tecnologia e não um produto quando foi lançado no mercado. Os engenheiros se perguntavam: “Como obtemos os melhores resultados de precisão com o que temos?” Então, tradicionalmente, os engenheiros de ASR consideravam apenas a solução específica de sotaque como uma maneira viável de resolver esse problema e a lacuna de sotaque. Do ponto de vista da engenharia, fazia sentido restringir o problema a um modelo de sotaque único porque era a melhor maneira de fornecer os melhores resultados de precisão para o sotaque ou dialeto específico.

Essa abordagem também exigia que os fornecedores de ASR construíssem modelos específicos para mercados específicos. Por exemplo, uma empresa médica exigiria um vocabulário completamente diferente de uma empresa de serviços públicos, e isso representa um enorme desafio quando se trata de tecnologia ASR. Se olharmos para o final da década de 1990, os motores exigiam que o usuário treinasse o ASR para sua voz, em vez de o motor ser independente do alto-falante.

À medida que a computação e o aprendizado de máquina (ML) melhoraram e evoluíram nos últimos 10 anos, os provedores de ASR conseguiram ampliar os limites do que é possível com a tecnologia de voz. À medida que se tornou mais amplamente adotado, ficou claro para os engenheiros que você nunca saberia o sotaque ou o dialeto do falante antes de usar a tecnologia, apenas o idioma. Então, como você seleciona o modelo correto? Você tem que fazer suposições e um melhor palpite à medida que a adoção aumenta e se torna mais globalizada, o problema se torna mais aparente.

Como resolvemos esse problema? Com um modelo de idioma abrangente, você pode não obter a melhor precisão para um falante específico, mas provavelmente obterá a melhor precisão geral para esse idioma específico. Começamos a construir um mecanismo de reconhecimento de fala em qualquer contexto onde poderíamos construir modelos de linguagem agnósticos de sotaque. Encontramos uma maneira de construir modelos de linguagem que eram pequenos o suficiente, o que torna nosso ASR consumível no mundo real.

Não pode ser apenas matemática pura por trás do aprendizado de máquina, a aplicabilidade no mundo real precisa ser entendida e como a tecnologia agrega valor aos negócios.

VEJO: Windows 10: listas de comandos vocais para reconhecimento de fala e ditado (TechRepublic)

Scott Matteson: Quais são os benefícios para empresas e consumidores?

Ian Firth: Em última análise, uma abordagem agnóstica de sotaque é benéfica para todos. A empresa reduz seus custos executando apenas um modelo para um idioma, e os consumidores obtêm a melhor experiência e valor porque são sempre compreendidos.

Essa solução também beneficia o provedor de ASR. Manter os modelos de linguagem atualizados e aprimorados é uma tarefa trabalhosa, portanto, reduzir o número de modelos de linguagem significa que o provedor de ASR também pode oferecer aos clientes o melhor serviço e tecnologia.

Scott Matteson: Para onde vai a tendência?

Ian Firth: Ainda acredito que uma abordagem agnóstica de sotaque é a solução certa para o problema da lacuna de sotaque no reconhecimento de fala. Não podemos esperar que os consumidores adaptem seu sotaque ou dialeto para se adequar a um modelo de idioma – o provedor de ASR é responsável por fazer isso.

Na Speechmatics, criamos o inglês e o espanhol globais e continuaremos a implementar os idiomas globais. Queremos construir uma linguagem global sempre que possível e, à medida que o ASR se torna mais preciso, continuaremos a tornar isso possível.

É importante observar que, do ponto de vista de custo, construção e experiência do consumidor, não é sustentável continuar a criar pacotes de idiomas com mais sotaque específico. O ASR está crescendo como uma indústria e continuará a crescer à medida que cada vez mais todos no mundo precisam ser ados pela tecnologia de fala. Isso se tornou extremamente mais aparente e acelerado devido ao COVID-19 este ano e à taxa de adoção para casos de uso como legendagem, transcrição, monitoramento, gerenciamento de ativos, conferência na web, análise de center.

Scott Matteson: O que é compreensão da linguagem natural?

Dan Kobran: A compreensão da linguagem natural é um subtópico da IA ​​que basicamente significa compreensão de leitura. Uma razão pela qual é um subtópico de celebridades é porque não há realmente uma diferença entre resolver NLU e resolver IA generalizada. Então, quando estamos falando sobre o sonho da NLU, estamos realmente falando sobre o sonho da própria IA: igualar e aumentar a inteligência humana.

Scott Matteson: Por que está recebendo tanto hype nos dias de hoje?

Dan Kobran: NLU não é novo. Há décadas tentamos descobrir como fazer com que as máquinas entendam a infinita variedade da linguagem humana. O que há de novo é que existem algumas novas e excelentes tecnologias de habilitação que estão se mostrando muito promissoras e que estamos nos tornando mais conscientes das aplicações NLU em nossas vidas cotidianas. Alguns dos aplicativos de produção mais comuns atualmente incluem tradução automática de texto entre idiomas na Internet, resposta a perguntas por um assistente inteligente como Siri ou Alexa e análise de sentimentos para solicitações de clientes por telefone ou bate-papo.

Scott Matteson: Do ponto de vista de um praticante de IA, o que torna a NLU particularmente desafiadora?

Dan Kobran: A linguagem é difícil! Dizemos as coisas literalmente, ou tacitamente, ou apenas as insinuamos, ou as alegorizamos, ou as deixamos no espaço vazio entre as frases – ad infinitum. A linguagem é uma representação do pensamento (embora talvez com perdas) e há muito para um modelo de ML aprender. É por isso que a NLU não é resolvida com algum algoritmo único inovador, mas sim por meio de IA generalizada, porque a complexidade da linguagem é um proxy para a complexidade da inteligência em geral.

Scott Matteson: O que é o GPT-3 do OpenAI e como ele funciona? Quais são os benefícios e requisitos?

Dan Kobran: GPT-3 é um modelo de linguagem que foi pré-treinado em parâmetros 175B e é especialmente bom para prever e gerar texto. Em outras palavras, é um modelo de linguagem que já leu MUITA coisa e pode usar esse conhecimento para prever o que vem a seguir quando recebe uma entrada. Mais especificamente, é um transformador (um certo tipo de modelo baseado em rede neural) que se beneficia de poder processar dados em paralelo e não em sequência. Portanto, é fácil de trabalhar, fácil de treinar e já vem com alguns recursos surpreendentes prontos para uso.

O recurso mais notável do GPT-3 é que ele é capaz de fornecer saída de geração de texto útil desde o início, porque é pré-treinado de forma completa. O modelo se torna muito poderoso quando treinado em conjuntos de dados de texto adicionais. Por exemplo, você pode tirar o GPT-3 da caixa e obter uma resposta razoável se inserir “Ser ou não ser”. Mas se você treinar o modelo em milhares de versos de Shakespeare, obterá de volta algo extremamente shakespeariano. É realmente incrível. A parte empolgante é que o mesmo pode ser dito para escrever poesia, ou coreano, ou código Javascript — realmente não importa para o modelo!

Scott Matteson: Quais são alguns exemplos subjetivos de GPT-3 em ação?

Dan Kobran: O GPT-3 infelizmente é de código fechado devido a um acordo de licenciamento entre OpenAI e Microsoft.

No entanto, alguns casos de uso interessantes já surgiram, incluindo escrita automática de e-mail, programação semântica (por exemplo, descrever o que você deseja que seu aplicativo faça em termos leigos), chatbots de conversação e muito mais.

Há também algumas possibilidades extremamente interessantes esperando para serem realizadas, como treinar GPT-3 na literatura médica para construir uma referência ou um bot de perguntas e respostas para médicos e pesquisadores de saúde.

Scott Matteson: Você acha que o GPT-3 está pronto para uso convencional?

Dan Kobran: O GPT-3 é treinado em duas ordens de grandeza a mais de parâmetros do que o GPT-2, então, até certo ponto, é a mesma tecnologia, mas muito melhorada.

Está claro que o GPT-3 está pronto hoje para casos de uso s que exigem modelos de linguagem universal, mas, além disso, o GPT-3 não reconhece o contexto e, portanto, é limitado em suas habilidades e aplicativos fundamentais.

Scott Matteson: O que precisa acontecer para que o GPT-3, ou qualquer estrutura NLU, realmente funcione em um ambiente corporativo hoje?

Dan Kobran: Como o professor Yann LeCun apontou recentemente, o GPT-3 não é uma inteligência senciente. É um modelo de linguagem que pode produzir frases uma palavra de cada vez. O GPT-3 na verdade não entende o mundo ao seu redor ou muito de qualquer coisa além dos padrões encontrados na linguagem.

No entanto, o GPT-3 é um enorme o em direção à IA útil. Já é útil hoje para certos aplicativos de geração de texto, mas a falta de compreensão além de uma profundidade superficial é o fator que limita sua utilidade hoje.