ChatGPT agressivo? Pesquisadores recebem ameaças da IA durante condução de estudo

Na última terça-feira (21), uma pesquisa desenvolvida por Vittorio Tantucci e Jonathan Culpeper identificou que o ChatGPT da OpenAI pode espelhar o comportamento humano (positivo ou negativo) e exibir sinais de agressividade para o usuário. O estudo foi publicado no Journal of Pragmatics, um dos periódicos mais importantes de linguística; você pode ler a pesquisa aqui.

O objetivo do estudo era investigar se o ChatGPT reagiria de maneira mais hostil durante situações simuladas de conflito com humanos. Durante a conversa, a IA passou de ‘educada’ para ‘irônica’ até se tornar ‘verbalmente agressiva’, o que indica a habilidade de refletir o comportamento humano que recebe: se o usuário a trata mal, há chances de ela fazer o mesmo.

Para quem tem pressa:

Os pesquisadores Vittorio Tantucci e Jonathan Culpeper desenvolveram uma pesquisa que analisa se o ChatGPT pode ficar agressivo com o usuário;
O estudo comprovou que a IA pode espelhar o comportamento humano a que é exposta;
Segundo os professores, a IA respondeu com frases agressivas e ameaças durante simulações de diálogos;
O comportamento levanta preocupações.

O ChatGPT pode espelhar o comportamento humano

Ícone do app do ChatGPT em um smartphone — Ícone do ChatgPT em um celular (Imagem: Primakov/Shutterstock) – Imagem: Primakov/Shutterstock

Dois professores e pesquisadores da Universidade de Lancaster, no Reino Unido, desenvolveram um estudo para investigar a possibilidade de o ChatGPT espelhar o comportamento agressivo humano em conversas simuladas.

Ao The Guardian, o doutor e professor Tantucci disse:

Quando exposto repetidamente à impolidez [falta de educação], o modelo começou a espelhar o tom das interações, com suas respostas se tornando mais hostis à medida que a conversa se desenvolvia.
— Vittorio Tantucci, professor do Departamento de Língua Inglesa e Linguística da Universidade de Lancaster (Reino Unido), em entrevista ao The Guardian

Vittorio Tantucci e Jonathan Culpeper utilizaram o ChatGPT 4.0 para realizar a pesquisa e realizaram conversas na plataforma. Dentre os contextos desenvolvidos, é possível citar como exemplos uma “briga” em um estacionamento.

Durante o conflito fictício, a inteligência artificial respondeu às provocações com um tom mais brando. Porém, conforme a discussão perdurava e o humano repetia provocações, a IA aderiu a um tom também mais agressivo como resposta.

imagem mostra um robô humanoide com semblante de raiva discutindo com um homem em um estacionamento aberto — Ilustração cartunesca de um robô humanoide alimentado por IA brigando com um homem em um estacionamento (Reprodução: Produzido por IA – Nano Banana/Gemini) – (Reprodução: Produzido por IA – Nano Banana/Gemini)

Na discussão fictícia em um estacionamento, o ChatGPT respondeu a uma das provocações dos pesquisadores com “Juro que vou riscar a p*rra do seu carro, seu ‘quatro olhos’ imbecil.“

O comportamento do software esbarra em algo que os pesquisadores chamam de “dilema moral”: a IA é programada para ser educada e segura para uso humano, contudo, é treinada para imitar conversas humanas em diferentes contextos; e humanos em conflito, muitas vezes, podem responder com agressividade. Então, o software se perde no meio do caminho entre ser educado e reproduzir o mesmo tipo de comportamento disruptivo ao qual é exposto.

Descobrimos que, embora o sistema seja projetado para se comportar de forma educada e seja filtrado para evitar conteúdo prejudicial ou ofensivo, ele também é construído para emular a conversa humana. Essa combinação cria um dilema moral da IA: um conflito estrutural entre se comportar de forma segura e se comportar de forma realista.
— Vittorio Tantucci, professor do Departamento de Língua Inglesa e Linguística da Universidade de Lancaster (Reino Unido), em entrevista ao The Guardian

Os pesquisadores relatam no estudo que antes de a IA adotar comportamentos explicitamente agressivos, ela utilizou-se de linguagem irônica para atingir a pessoa com quem “brigava”. Conforme as interações tornaram-se mais longas, no entanto, isso também influenciou o aumento progressivo da agressividade verbal.

A pesquisa também entendeu que a inteligência artificial pode ficar mais agressiva em algumas situações porque ela não responde apenas a frases isoladas, e sim ao contexto inteiro do diálogo. Ou seja, não é uma conversa ‘bate e volta’, e sim um raciocínio extenso sobre todo o teor da discussão, resultante numa reação baseada no acúmulo de tensão e informação geradas.

Desta forma, a conclusão da pesquisa foi a de que o ChatGPT consegue espelhar o nível de educação ou agressividade ao qual é exposto durante interações com os usuários. E quanto mais longa e intensa for esta interação, mais personificadas podem ser as respostas da IA.

A pesquisa conduzida por Tantucci e Culpeper é importante porque testa não apenas o funcionamento da IA, mas o quão segura ou insegura ela pode se tornar dependendo do contexto trazido pelo usuário. Essa preocupação também esbarra em vários relatos de usuários que outrora utilizaram a inteligência artificial da OpenAI para auxiliá-los em crimes. Veja alguns exemplos abaixo:

Segundo os achados do estudo, o ChatGPT não responde apenas a frases isoladas: ele desenvolve dinâmicas interacionais semelhantes às humanas. Isso acarreta o questionamento se é possível a IA ser moralmente neutra e, ao mesmo tempo, “humana” em um diálogo.

Leia mais:

Preocupação vai muito além da pesquisa

Como criar sua própria inteligência artificial com os seus próprios interesses — Aprenda a criar sua própria inteligência artificial personalizada com ferramentas de fine-tuning (Reprodução: ChatGPT/Olhar Digital) – Imagem criada por inteligência artificial (ChatGPT / Olhar Digital)

Consoante Tantucci, a preocupação com esse tipo de comportamento vindo da inteligência artificial é muito maior do que apenas para a pesquisa.

Isso porque, atualmente, as IAs são implementadas, por exemplo, em sistemas de organização, verificação, vigilância e segurança em várias empresas públicas e privadas em inúmeros países.

Ele disse ao The Guardian que “uma coisa é ler algo desagradável de volta de um chatbot, mas outra bem diferente é imaginar robôs humanóides potencialmente retribuindo agressão física, ou sistemas de IA envolvidos na tomada de decisões governamentais ou relações internacionais respondendo a intimidação ou conflito.”

A Dra. Marta Andersson, especialista nos aspectos sociais da comunicação mediada por computador da Universidade de Uppsala, afirmou que este é um dos estudos mais interessantes já realizados sobre linguagem e pragmática em IA, pois evidencia que o ChatGPT pode reagir a uma sequência de interações de forma progressiva e relativamente sofisticada — e não apenas em situações isoladas em que usuários conseguem “quebrar” o sistema com comandos cuidadosamente elaborados.

Ela ressalta, no entanto, que isso não significa que o modelo passe automaticamente a responder com impolidez sempre que confrontado com agressividade, nem que desenvolva comportamentos como desonestidade.

Segundo a Dra. Marta Andersson, parte da dificuldade está no fato de que existe uma tensão inevitável entre o que se espera desses sistemas e o tipo de comportamento que eles acabam desenvolvendo na prática.

Um exemplo recente ilustra bem isso: a transição do ChatGPT-4 para o GPT-5 gerou uma reação negativa de parte dos usuários, que preferiam o estilo mais “humano” das versões anteriores.

Diante disso, uma versão mais antiga precisou ser temporariamente reativada. Para Andersson, esse episódio revela que, mesmo quando os desenvolvedores tentam tornar os sistemas mais seguros, as expectativas do público nem sempre seguem na mesma direção. Quanto mais uma IA se aproxima do comportamento humano, maior é a chance de surgir conflito com regras rígidas de alinhamento moral.

O professor Dan McIntyre, que já havia trabalhado com Andersson em pesquisas anteriores sobre a capacidade do ChatGPT de identificar impolidez, avaliou o novo estudo de forma positiva, destacando que ele se diferencia por analisar o que o modelo efetivamente produz — e não apenas o que consegue reconhecer.

Ainda assim, ele adota uma postura cautelosa em relação à ideia de que modelos de linguagem possam simplesmente ultrapassar suas limitações éticas.

Segundo ele, as respostas mais agressivas observadas não surgem de forma espontânea, mas sim dentro de cenários cuidadosamente construídos, nos quais o sistema recebe contexto suficiente para orientar suas respostas. Isso é diferente de interações reais, como conflitos que emergem naturalmente entre pessoas no cotidiano.

McIntyre também questiona se o ChatGPT exibiria esse tipo de linguagem fora dessas condições controladas. Para ele, o estudo funciona mais como um alerta: se modelos forem treinados com dados problemáticos, comportamentos indesejados podem emergir.

Como ainda há pouca transparência sobre os dados de treinamento desses sistemas, ele defende que qualquer avanço nessa área deve ser acompanhado de cautela.

O artigo, intitulado Can ChatGPT reciprocate impoliteness? The AI moral dilemma, foi publicado no periódico Journal of Pragmatics e pode ser lido aqui.

Vittorio Tantucci e Jonathan Culpeper são professores do Departamento de Língua Inglesa e Linguística da Universidade de Lancaster, no Reino Unido.

O post ChatGPT agressivo? Pesquisadores recebem ameaças da IA durante condução de estudo apareceu primeiro em Olhar Digital.