Conselhos médicos dados por IAs como o ChatGPT são imprecisos e inconsistentes, revela estudo de Oxford

Pesquisa constatou que mecanismos de busca tradicionais oferecem menos riscos do que chatbots

Foto: Viralyft/Unsplash

Por Redação MediaTalks

22.02.2026

O estudo de Oxford que avaliou a qualidade dos conselhos médicos fornecidos por ferramentas de IA como o ChatGPT descobriu que respostas dos mecanismos de busca tradicionais oferecem menos riscos.

Um novo estudo realizado pelo Oxford Internet Institute e pelo Departamento de Ciências da Saúde de Atenção Primária de Nuffield da Universidade de Oxford constatou que os chatbots de inteligência artificial (IA) oferecem riscos a pessoas que procuram aconselhamento médico devido à sua tendência a fornecer informações imprecisas e inconsistentes.

“Embora essas plataformas apresentem bom desempenho em testes padronizados de conhecimento médico, eles podem prejudicar usuários reais que submetem seus próprios sintomas médicos em busca de orientação, diz o relatório.

O estudo revelou que os chatbots de IA são menos úteis do que os mecanismos de busca tradicionais para aconselhamento médico.

Testando as IAs para conselhos médicos

O estudo envolveu quase 1.300 participantes, que foram solicitados a identificar possíveis condições de saúde e o curso de ação recomendado, com base em cenários médicos pessoais.

Os cenários detalhados, desenvolvidos por médicos, variaram de um jovem desenvolvendo uma forte dor de cabeça após uma noite fora com amigos, a uma jovem mãe que se sentia constantemente sem fôlego e exausta.

Um grupo usou um LLM para auxiliar sua tomada de decisão, enquanto um grupo de controle usou outras fontes tradicionais de informação.

Os pesquisadores então avaliaram com que precisão os participantes identificaram os prováveis problemas médicos e o próximo passo mais apropriado, como visitar um clínico geral ou procurar a emergência de um hospital.

Eles também compararam esses resultados com os resultados de estratégias padrão de teste dos LLM (modelos de linguagem que alimentam os chatbots), que não envolvem usuários humanos reais.

O contraste foi impressionante, segundo o relatório; modelos que tiveram um bom desempenho em testes de referência apresentaram falhas ao interagir com pessoas.

O estudo de Oxford encontrou evidências de três tipos de problemas:

Os usuários muitas vezes não sabiam quais informações deveriam fornecer ao chatbot;
Os chatbots forneceram respostas muito diferentes com base em pequenas variações nas perguntas feitas;
Os chatbots frequentemente forneciam uma mistura de informações boas e ruins que os usuários tiveram dificuldades para distinguir.

“Projetar testes robustos para grandes modelos de linguagem é fundamental para entender como podemos fazer uso dessa nova tecnologia”, disse o autor principal do estudo, Andrew Bean, pesquisador de doutorado do Oxford Internet Institute.

Testes com usuários reais para prevenir riscos

Adam Mahdi, Professor Associado, Laboratório de Raciocínio com Máquinas (OxRML) do Oxford Internet Institute que também participou do estudo, afirmou que os resultados demonstram o risco de confiar apenas em testes padronizados para determinar se os chatbots são seguros para uso do público para conselhos médicos.

“Assim como exigimos ensaios clínicos para novos medicamentos, os sistemas de IA precisam de testes rigorosos com usuários diversos e reais para entender suas verdadeiras capacidades em ambientes de alto risco, como saúde.”

O estudo completo, publicado na Nature Medicine, pode ser visto aqui.