Clonagem de Vozes: ElevenLabs, o Beta, e a problemática do uso de vozes sintetizadas

Clonagem de Vozes: ElevenLabs, o Beta, e a problemática do uso de vozes sintetizadas 

Avanços da IA de clonagem de vozes, como o “Beta” da ElevenLabs, vêm criando um problema para as redes sociais e internet como um todo. Em parte, é claro, pelo uso indevido dessas ferramentas.

Mas, há algo sendo feito para que haja maior sensibilidade com essa preocupação?

Clonagem de vozes: a IA ultrapassou limites?

A clonagem e produção bruta de diversos recursos, como áudio e texto por IA, já veio dando o que falar.

Antes, o problema era driblar apenas os recursos de textos produzidos pelas ferramentas, que causavam diversos problemas às instituições de ensino.

Por exemplo, fazendo com que alunos aparecessem com avaliações extensas e excessivamente padronizadas aos seus professores — mas com pouca qualidade de argumentação e aprendizado envolvidos.

Faculdades, escolas e demais instituições chegaram a ter de aplicar a própria ferramenta para combater o seu uso pelos alunos; detectando textos gerados pelo ChatGPT, por exemplo, com o uso do próprio ChatGPT. Que loucura!

No entanto, temos que nos voltar à atualidade, porque as coisas estão ficando ainda mais complexas. O Beta, recurso desenvolvido pela ElevenLabs, é um “ChatGPT do Áudio”: uma ferramenta de geração adaptativa de vozes.

Ou seja, o Beta é capaz de gerar um arquivo de áudio com base em outro: uma amostra de fala curta é capaz de servir como base a um outro arquivo totalmente novo, gerado apenas com apoio em um roteiro textual e a própria amostra de voz. Louco, não é? Pois é, e é exatamente aqui que nasce a problemática.

Como você deve ser capaz de perceber, usar as vozes de outras pessoas para veicular uma mensagem que não condiz com seu ponto de vista sobre a vida, a política, ideologias ou o que seja, é altamente arriscado.

Problemas com IA já estão até na mira do entretenimento

Quer um exemplo do problemasso que tudo isso causa, ainda que fictício?

A série “Black Mirror” lançou um episódio em sua última temporada intitulado “Joan Is Awful” (“Joan é Péssima”), no qual a atriz Salma Hayek licencia seu rosto para ser usado na produção da série fictícia, homônima deste episódio, como bem quisessem.

O pulo do gato se resume ao fato de que a série, tema do episódio, é produzida exclusivamente através de IA! Ou seja, a personagem Salma Hayek não atua, apenas empresta seu rosto ao computador que produz os episódios. 

Na série, a atriz fica chocada com os atos da personagem (baseada em uma mulher “real”) que carrega seu rosto — pois ela não tinha noção de, e nem ia de acordo com, o que a personagem fazia e dizia. A trama é muito mais complexa do que isso — mas sem spoilers.

O ponto é que: a diferença entre a realidade e a ficção, como bem pontua a série com seu tema, é mínima, e a identidade de uma pessoa está sendo utilizada para o lucro de uma outra entidade sem o consentimento total da primeira.  

Por que é mínima a diferença? Bom, o Beta, da ElevenLabs, está sendo utilizado para fins indevidos há algum tempo: a clonagem de vozes de celebridades como Justin Roiland, Emma Watson e outros, foi feita e as vozes das personalidades foram colocadas para proferir coisas… que não queremos proferir aqui.

Não entraremos em detalhes, infelizmente, mas digamos que essas pessoas não gostariam nem um pouco do que escutariam a si mesmas falarem graças ao Beta. O caso é similar ao dos “deepfakes”, que também já causaram muito problema com o uso de imagem de celebridades para produção de conteúdos… sensíveis.

A Clonagem de Vozes como ferramenta de má intenção

Uma influencer no Tik Tok, Mia Dio, apresentou o caso problemático de forma bem simples: custam quatro dólares para clonar uma voz e fazer ela falar o que você quer. 

Pois é… Mia Dio clonou a voz do namorado, por US$4, para criar um caso em que fosse fácil compreender o problema que isso causa: por meio do Beta, ela sintetizou um script de áudio com base no roteiro escrito por ela, usando uma amostra curta da voz do namorado.

A influencer, então, liga para um amigo do namorado, usando a voz de seu amado para extrair informações sobre o que ele teria feito na noite anterior. O amigo diz (ao “namorado dela”) que seu namorado teria traído a influencer no último rolê e na frente de todos os presentes.

O Tik Tok da influencer mostra que, na verdade, tudo era uma armação — com exceção, é claro, do áudio gerado por IA. Ou seja, você quase acreditou na história e só não continuou acreditando, porque ela disse que era tudo falso.

A facilidade com que é possível recriar isso é espantadora, ainda mais quando levamos em conta que a influencer revela o preço relativamente acessível para se criar uma situação sensível como essas. Imagine a facilidade de se passar por alguém para aplicar golpes, por exemplo.

A Clonagem de Voz pode vir a ser mais segura

A ElevenLabs recorreu ao X (Twitter), há alguns meses, fazendo um apelo ao feedback dos usuários e o que esperariam que a empresa pudesse fazer para contornar situações extremamente desagradáveis. A empresa determinou uma série de medidas internas ao sistema para garantir maior segurança.

Além disso, o Beta também começou a obrigar seus clientes a inserir informações de registro de pessoa física, informações de pagamento completas e, também, prometeu que todo conteúdo gerado é passível de ser rastreado ao cliente que o sintetizou.

Mas, pode vir a não ser…

É fato que é um assunto sensível, mas é ainda pior que não seja.

Diversos usuários responderam ao tweet da ElevenLabs, e as opiniões vão desde “não censurem a ferramenta” até “essa ferramenta infringe regras estabelecidas em copyrights dos mais diversos”. Mesmo com medidas de segurança, a maior preocupação é com direitos criativos e de uso de voz/imagem.

Podemos perceber que a clonagem de voz gera um problema exatamente como o de “Joan é Terrível”. Por exemplo, o copyright, e até onde vai a legalidade em utilizar a identidade de alguém com sintetização via IA.

O maior dos usos indevidos, no entanto, é do uso de vozes clonadas para propagar conteúdo de ódio às minorias e ameaças. Esta se tornou a maior preocupação da ElevenLabs e de seus clientes.

E você, como se sentiria se sua imagem, ou voz, fossem usados para ferir alguém? E se você descobrisse quando já fosse tarde demais? 

× Como posso te ajudar?