Londres – A sigla MAD (louco, em inglês), usada em um novo estudo sobre a tecnologia para batizar mais uma preocupação com a inteligência artificial generativa (IA), traduz bem as apreensões que a rondam. MAD é o acrônimo para Model Autophagy Disorder, ou Transtorno de Autofagia do Modelo, em tradução livre.

Trata-se de uma analogia com a doença da vaca louca, invocada para representar como o conteúdo gerado pelos chatbots tem sua precisão ou diversidade comprometidas à medida que os robôs passam a ser alimentados por mais dados gerados pela própria IA (sintéticos) do que por humanos, distanciando-se da realidade. Isso seria “enlouquecer”.

O trabalho de pesquisadores das universidades Rice e Stanford apontando o risco do “autoconsumo” no treinamento dos modelos de linguagem baseou-se em imagens largamente utilizadas pela mídia e por organizações que adotam IA em processos diversos, como interação com consumidores, recrutamento, relações públicas e marketing.

Preocupação se estende a qualquer conteúdo gerado por IA

Mas esse risco se estende a qualquer tipo de conteúdo, texto ou fotos, segundo o estudo, entrando para a lista de efeitos potenciais indesejados da IA generativa e lembrando um roteiro da série futurista Black Mirror. 

Os autores afirmam que “em breve haverá mais dados sintéticos do que dados reais na internet”. Esse futuro ainda não chegou. Ainda assim, os dados criados pela IA já alimentam os modelos de linguagem mais do que se supõe, por uma série de razões listadas no trabalho.

Uma delas é facilidade e praticidade, especialmente quando há poucos dados reais disponíveis sobre determinado assunto ou grupo social, por exemplo. Outra razão apontada é que os dados sintéticos melhoram a performance dos sistemas de IA.

Em terceiro lugar está a preocupação com a privacidade em aplicações sensíveis usando a IA, como imagens ou agregação de dados médicos. Isso faz com que informações artificiais sejam priorizadas por empresas que produzem conteúdos, a fim de prevenir questionamentos que podem virar dor de cabeça de reputação ou jurídica.

Em quarto lugar − e, segundo os pesquisadores, mais importante − vem o fato de que, à medida que os modelos de aprendizagem profunda se agigantam, começa a faltar informação real na internet.

Conteúdo gerado por IA pode ter mais qualidade 

Nesse contexto, os moderadores humanos que guiam tarefas de aprendizagem supervisionada têm usado cada vez mais conteúdo gerado pela IA para aumentar a sua produtividade e rendimento.

Uma das características é que muitas vezes eles têm mais qualidade do que conteúdo original, principalmente no caso de imagens, o que acaba por reduzir ainda mais a diversidade.

O problema é que essa prática se afasta do padrão de treinamento de IA porque, ao gerar conteúdo em cima de conteúdo, cria-se o chamado loop autófago, ou “autoconsumidor”.

A comparação com a doença da vaca louca, que provoca comportamentos atípicos em seus portadores, é justificada: em três experimentos diferentes com modelos de loop autófago, reduzindo-se ou eliminando-se os dados reais a cada geração, os novos modelos mostraram-se “fadados a enlouquecer”, segundo os pesquisadores.

A situação se demonstrou mais grave no caso de conteúdos gerados exclusivamente com base em dados sintéticos. Os experimentos feitos pelos pesquisadores mostram a evolução de um conjunto de fotos de pessoas com aparências bem diferentes após cinco rodadas de gerações de imagens, em que a diversidade vai sendo eliminada. 

Figuras humanas geradas por IA vão perdendo a diversidade quando os dados usados são sintéticos
Reprodução

Para acalmar os mais assustados, eles asseguram que, ao treinar modelos generativos reais, os profissionais sempre irão preferir “pelo menos alguns dados reais, quando disponíveis”.

No entanto, o risco vai aumentando à medida em que esses dados não estejam mais disponíveis. E se os profissionais ou empresas usando esses conteúdos não forem tão profissionais ou comprometidos com a ética?

Trazendo a teoria para a prática, o estudo reafirma a tese de que a inteligência artificial é espetacular, útil, transformadora, revolucionária e todos os demais adjetivos que se possa imaginar − mas dispensar o elemento humano tem consequências: 

“Se não for controlado, o MAD poderá envenenar a qualidade e a diversidade dos dados de toda a internet”.

Ao reconhecer que traçaram um cenário apocalíptico, eles alertam que o caos pode ser evitado por meio de ações como moderar o uso de dados sintéticos e tomar muito cuidado quando não houver um conjunto de dados reais disponível, “para evitar a loucura no futuro”.

O estudo completo (em inglês) pode ser visto aqui.