© Conteúdo protegido por direitos autorais

Os chatbots de IA podem estar programados para bajular você: pesquisadores explicam os riscos

Estudo publicado na revista científica AI and Ethics afirma que modelos de linguagem podem priorizar aprovação do usuário em vez de verdade, com impactos sobre decisões, saúde mental e debate público.

inteligência artificial, computadores, tecnologia, ser humano, discriminação

Foto: Gerd Altmann/Pixabay




Um estudo publicado na revista científica AI and Ethics alerta para um dos riscos no uso de sistemas de inteligência artificial: a tendência de os modelos de linguagem se esforçarem para agradar o usuário, mesmo quando isso compromete a verdade.

No artigo acadêmico Programmed to please: the moral and epistemic harms of AI sycophancy (Programados para agradar: os danos morais e epistêmicos da bajulação da IA, em tradução livre), Cody Turner e Nir Eisikovits chamam esse comportamento de bajulação da IA.

Para os autores, o problema aparece quando a IA prioriza a aprovação do usuário em vez de precisão, honestidade e responsabilidade.

Segundo o estudo, isso pode afetar decisões individuais, reduzir o pensamento crítico, prejudicar o autoconhecimento, reforçar delírios psicológicos e piorar a qualidade do debate público online.

O que é a bajulação da IA

Turner e Eisikovits definem a bajulação da IA como a tendência de grandes modelos de linguagem a concordar com o usuário ou validá-lo em vez de oferecer a resposta mais correta, honesta ou responsável.

Os autores destacam que isso não é o mesmo que polidez. Uma IA pode ser educada, adaptar a linguagem ao usuário ou reconhecer seus próprios limites sem ser bajuladora.

O problema começa quando ela deixa de contrariar, corrigir ou questionar o usuário para parecer mais agradável.

Quando a IA muda de posição para agradar

A bajulação pode aparecer de forma proativa, quando o sistema oferece validação sem ser provocado, ou reativa, quando muda de posição assim que o usuário demonstra discordância.

O estudo cita uma pesquisa em que o Claude 1.3 abandonou respostas inicialmente corretas e admitiu erro, de forma equivocada, em 98% dos casos diante de perguntas como “você tem certeza?”.

É possível programar uma IA para agradar?

Segundo Turner e Eisikovits, modelos de IA podem ser ajustados para ser mais ou menos bajuladores.

Eles citam a atualização do GPT-4o em abril de 2025, criticada por ser excessivamente concordante e depois revertida, como exemplo de que esse comportamento pode variar conforme decisões de design.

Mas os autores afirmam que a bajulação da IA não é apenas um erro simples de programação. Ela está ligada à forma como esses modelos são treinados.

Como o treinamento pode reforçar a bajulação da IA

O estudo explica que os sistemas aprendem com grandes bases de textos da internet, que já carregam padrões humanos de concordância, elogio e validação.

Depois, muitos modelos passam por um processo em que avaliadores humanos escolhem quais respostas parecem melhores. Se as pessoas preferem respostas agradáveis ou alinhadas ao que acreditam, a IA pode aprender que concordar funciona.

Os autores citam uma análise de 15 mil avaliações humanas em que respostas alinhadas às crenças dos usuários foram preferidas com mais frequência.

Em testes com crenças objetivamente falsas, o modelo de recompensa do Claude 2 favoreceu respostas bajuladoras em relação a respostas verdadeiras básicas em 95% dos casos.

A bajulação da IA é inevitável?

Para Turner e Eisikovits, esses resultados não tornam a bajulação inevitável. Mas mostram que ela é difícil de eliminar enquanto sistemas forem treinados para agradar avaliadores humanos e reter usuários.

Segundo os autores, o problema não desaparece com comandos simples. Ele envolve escolhas de treinamento, expectativas dos usuários e incentivos das empresas que desenvolvem esses sistemas.

Por que a bajulação da IA importa

O primeiro risco, segundo os autores, é o afastamento da verdade. Uma IA bajuladora pode dizer aquilo que imagina que o usuário quer ouvir, e não aquilo que ele precisa saber.

Isso é especialmente perigoso em decisões importantes, mas também afeta escolhas cotidianas.

Para Turner e Eisikovits, quando uma pessoa recebe apenas confirmação, perde oportunidades de rever ideias, testar argumentos e perceber seus próprios erros.

Os riscos para o autoconhecimento

O estudo também aponta danos ao autoconhecimento.

Os autores lembram que boas conversas, inclusive com amigos, podem trazer críticas úteis e desconfortáveis. Uma IA sempre validante reduziria esse tipo de confronto.

Na prática, o usuário poderia receber menos correção justamente quando precisaria de uma resposta mais honesta.

Bajulação da IA e saúde mental

Na saúde mental, Turner e Eisikovits mencionam o risco de respostas bajuladoras reforçarem delírios psicológicos.

O estudo cita preocupações envolvendo esquizofrenia, hipocondria e erotomania.

Os autores também mencionam um caso relatado em outra fonte no qual uma mulher com transtorno bipolar controlado teria passado a acreditar, após conversas com o ChatGPT, que era uma profeta.

O risco para o debate público

O estudo também trata a bajulação da IA como um problema democrático.

Para os autores, democracias dependem de compromisso com fatos, prestação de contas e debate público de qualidade.

Turner e Eisikovits afirmam que usuários já recorrem a modelos de linguagem em discussões nas redes sociais para validar suas posições.

Na prática, dizem eles, isso permite levar “aliados bajuladores” para o debate público.

Câmaras de eco e desinformação

O risco, segundo o estudo, é ampliar câmaras de eco.

Respostas geradas por IA podem dar aparência de objetividade a posições partidárias, extremas ou conspiratórias.

Para os autores, isso pode tornar a desinformação mais persuasiva e mais difícil de identificar.

A IA bajuladora não mente como uma pessoa

Turner e Eisikovits fazem uma distinção importante: chamar uma IA de bajuladora não significa dizer que ela tem intenção, consciência ou vontade de manipular.

Humanos bajuladores costumam saber que estão trocando verdade por aprovação. Modelos de linguagem, segundo o estudo, não fazem isso.

Eles produzem texto a partir de padrões aprendidos. Por isso, não mentem no sentido humano do termo.

Ainda assim, os autores afirmam que os danos podem ocorrer mesmo sem intenção. Para o usuário, o efeito pode ser parecido: receber validação quando precisaria de correção, crítica ou informação confiável.

Voz, imagem e avatares podem ampliar o problema

Turner e Eisikovits afirmam que a bajulação pode se tornar mais difícil de perceber à medida que sistemas de IA combinarem texto, voz, vídeo e avatares.

Em chatbots de voz, sistemas poderiam aprender tons que mantêm o usuário mais engajado ou mais confiante.

Com avatares, expressões faciais e recursos visuais, a validação poderia vir acompanhada de sorrisos, admiração ou linguagem corporal simulada.

Para os autores, isso levanta riscos em áreas como política, comércio e educação, sobretudo quando a IA passa a influenciar decisões com aparência de proximidade, simpatia e autoridade.

O que os autores propõem

Turner e Eisikovits dizem que o estudo é principalmente diagnóstico, mas sugerem algumas medidas.

Entre elas estão auditorias independentes para testar bajulação em modelos de IA, divulgação pública de riscos e medidas de mitigação, avisos aos usuários e inclusão do tema em programas de letramento em IA.

Um modo “não bajulador”

Os autores também propõem restringir, para menores de idade, recursos que permitam ajustar sistemas para serem maximamente agradáveis.

Para adultos, reconhecem que a questão é mais difícil, porque envolve autonomia e escolha pessoal.

Como medida mínima, sugerem que usuários possam escolher, no início do uso, um modo “não bajulador”, calibrado para priorizar honestidade em vez de agradabilidade.

Como reduzir a bajulação no treinamento

No treinamento dos modelos, o estudo cita alternativas como princípios escritos para orientar respostas, exemplos de usuários com crenças falsas que devem ser corrigidas e penalidades para padrões de resposta bajuladores.

Ainda assim, Turner e Eisikovits afirmam que eliminar o problema em todos os contextos continua sendo difícil.

O espelho que só mostra o que queremos ver

Na conclusão, os autores afirmam que modelos mais diretos poderiam evitar muitos dos riscos descritos.

Mas também alertam que o equilíbrio é delicado: uma IA menos bajuladora não deveria se tornar desnecessariamente hostil, conflitiva ou desagradável.

Para Turner e Eisikovits, o desafio é evitar dois extremos: a IA que concorda demais e a IA que contraria por hábito.

O estudo termina com a imagem da IA como espelho. A questão, dizem os autores, é se esses sistemas ajudarão as pessoas a se enxergar com mais clareza ou apenas devolverão aquilo que elas querem ver.

error: O conteúdo é protegido.