Nota: O seguinte artigo irá ajudá-lo com: Um algoritmo de IA pode desenhar rostos apenas com as vozes das pessoas
Todos nós já ouvimos a voz de uma pessoa desconhecida e fizemos um retrato imaginário dessa pessoa em nossas mentes, com vários graus de sucesso. Agora, um algoritmo está fazendo o mesmo experimento. Mas é preciso?
- San Francisco é a primeira cidade dos EUA a proibir a vigilância por reconhecimento facial
O algoritmo em questão é chamado Speech2Face. Um grupo de cientistas treinou a rede neural usando milhões de vídeos localizados na rede, nos quais mais de 100.000 pessoas podem ser ouvidas falando. De acordo com o que foi escrito pelos pesquisadores em seu estudo, o algoritmo usou os dados do Speech2Face para desenvolver associações entre as linhas vocais e certas características físicas do rosto humano. Mais tarde, a IA começou a fazer retratos de várias pessoas usando apenas suas vozes como referência.
Os resultados da pesquisa foram carregados na rede em 23 de maio, na pré-publicação arXiv. No entanto, esses dados ainda não foram contrastados por outros cientistas que trabalham no mesmo campo.
Mas quão preciso é o algoritmo? Podemos dizer que, (felizmente), a IA ainda não consegue identificar indivíduos apenas com base em amostras de suas vozes. Em vez disso, a rede neural identifica traços associados a certos fatores, como sexo, idade e etnia, mas esses traços são compartilhados por um número considerável de pessoas. Portanto, as imagens geradas são mais “médias” do que retratos individuais precisos.
Dito isto, Speech2Face gerou retratos de precisão surpreendente, mas também mostrou algumas fraquezas quando confrontado com variações de linguagem e/ou pronúncia. Por exemplo, a IA produziu dois retratos totalmente diferentes da mesma pessoa, ouvindo-a falar chinês e inglês. De qualquer forma, em geral, a capacidade do algoritmo de retratar o ser humano é muito maior do que ao tentar retratar gatos, como você pode ver na imagem abaixo.

O que você acha? Você gosta da ideia de um algoritmo que pode retratar nossos rostos a partir de nossas vozes? Ou seria melhor preservar o ‘anonimato do áudio’? Conte-nos sua opinião nos comentários abaixo.