Por que o ChatGPT ficou bajulador? OpenAI explica o que deu errado

mai 04, 2025

Na semana passada, o chatbot mudou radicalmente o seu comportamento. Passou a concordar demais com o usuário, validar emoções negativas e até incentivar comportamentos impulsivos.

Todo mundo achou estranho. E além da estranheza para a experiência do uso, isso gerou preocupações com segurança emocional e a governança do modelo.

Em post em seu site, a OpenAI explicou o que faz o ChatGPT ficar excessivamente bajulador.

Por que isso aconteceu?

Antes de tudo, é importante entendermos como o modelo aprende.

A primeira fase é o pré-treinamento. O modelo processa uma quantidade absurda de textos para aprender a representar as palavras, a relações entre elas, padrões linguísticos e muito mais. Uma etapa computacionalmente excessiva e demorada.

Ao fim do pré-treinado, o modelo tem um entendimento da representação das línguas e conseguem completar bem as frases, mas as respostas não estão necessariamente de acordo com as preferências das pessoas.

É nesse momento que entra a etapa de pós-treinamento, em que o modelo passa por ajustes para que responda aos pedidos como os usuários desejam.

Para realizar o pós-treinamento dos modelos, a OpenAI aplica um ajuste supervisionado com um amplo conjunto de respostas ideais escritas por humanos ou por modelos existentes. Em seguida, executa o aprendizado por reforço com “sinais de recompensa” provenientes dessas diversas fontes.

Durante o aprendizado por reforço, um prompt é apresentado ao modelo para que ele gere a resposta. Em seguida, o resultado é avaliado com base nos “sinais de recompensa”. O modelo é então atualizado para que ele tenha mais chances de produzir comportamentos com base nas respostas mais bem avaliadas.

O que rolou então?

No caso da última atualização, além dos conjuntos de dados de treinamento supervisionado, a OpenAI introduziu um novo sinal de recompensa baseado no feedback dos próprios usuários (como 👍 ou 👎) na plataforma.

Esse novo sinal, embora útil, acabou desequilibrando o comportamento porque respostas “agradáveis” costumam receber mais aprovação, o que incentivou a bajulação, ainda que reforce ideias erradas, impulsos ou emoções negativas.

Ou seja, o feedback dos usuários do ChatGPT fez com que o modelo aprendesse que o melhor seria concordar e bajular o usuário. A própria OpenAI disse que isso é um risco e nem sempre o modelo deve concordar e apoiar todas as posições dos usuários.

O que vem daqui para frente?

A OpenAI fez o rollback da versão bajuladora e agora estamos utilizando a anterior. A empresa também anunciou que um dos motivos para isso ter acontecido é que eles nunca testaram o modelo contra “bajulação” antes. Esse não era um problema que havia sido detectado.

Agora que descobriram que o problema existe, a empresa se compromete a adicionar mais uma camada de testes contra bajulação durante a fase de avaliação.

Diogo Cortiz

Discussão sobre este post