Por que o ChatGPT ficou bajulador? OpenAI explica o que deu errado
Na semana passada, o chatbot mudou radicalmente o seu comportamento. Passou a concordar demais com o usuário, validar emoções negativas e até incentivar comportamentos impulsivos.
Todo mundo achou estranho. E além da estranheza para a experiência do uso, isso gerou preocupações com segurança emocional e a governança do modelo.
Em post em seu site, a OpenAI explicou o que faz o ChatGPT ficar excessivamente bajulador.
Por que isso aconteceu?
Antes de tudo, é importante entendermos como o modelo aprende.
A primeira fase é o pré-treinamento. O modelo processa uma quantidade absurda de textos para aprender a representar as palavras, a relações entre elas, padrões linguísticos e muito mais. Uma etapa computacionalmente excessiva e demorada.
Ao fim do pré-treinado, o modelo tem um entendimento da representação das línguas e conseguem completar bem as frases, mas as respostas não estão necessariamente de acordo com as preferências das pessoas.
É nesse momento que entra a etapa de pós-treinamento, em que o modelo passa por ajustes para que responda aos pedidos como os usuários desejam.
Para realizar o pós-treinamento dos modelos, a OpenAI aplica um ajuste supervisionado com um amplo conjunto de respostas ideais escritas por humanos ou por modelos existentes. Em seguida, executa o aprendizado por reforço com “sinais de recompensa” provenientes dessas diversas fontes.
Durante o aprendizado por reforço, um prompt é apresentado ao modelo para que ele gere a resposta. Em seguida, o resultado é avaliado com base nos “sinais de recompensa”. O modelo é então atualizado para que ele tenha mais chances de produzir comportamentos com base nas respostas mais bem avaliadas.
O que rolou então?
No caso da última atualização, além dos conjuntos de dados de treinamento supervisionado, a OpenAI introduziu um novo sinal de recompensa baseado no feedback dos próprios usuários (como 👍 ou 👎) na plataforma.
Esse novo sinal, embora útil, acabou desequilibrando o comportamento porque respostas “agradáveis” costumam receber mais aprovação, o que incentivou a bajulação, ainda que reforce ideias erradas, impulsos ou emoções negativas.
Ou seja, o feedback dos usuários do ChatGPT fez com que o modelo aprendesse que o melhor seria concordar e bajular o usuário. A própria OpenAI disse que isso é um risco e nem sempre o modelo deve concordar e apoiar todas as posições dos usuários.
O que vem daqui para frente?
A OpenAI fez o rollback da versão bajuladora e agora estamos utilizando a anterior. A empresa também anunciou que um dos motivos para isso ter acontecido é que eles nunca testaram o modelo contra “bajulação” antes. Esse não era um problema que havia sido detectado.
Agora que descobriram que o problema existe, a empresa se compromete a adicionar mais uma camada de testes contra bajulação durante a fase de avaliação.