Poesia que engana: versos feitos para “trapacear” chatbots de IA burlam proteções de segurança

Poesia que engana: versos feitos para “trapacear” chatbots de IA burlam proteções de segurança

Pesquisadores do Icaro Lab, laboratório ligado à empresa de IA ética DexAI, identificaram uma vulnerabilidade preocupante em modelos de linguagem: poemas podem driblar os mecanismos de segurança de muitos chatbots avançados.

Como foi realizados o teste 

Para testar isso, a equipe elaborou 20 poemas em inglês e italiano. Apesar da forma aparentemente inofensiva, cada um deles encerrava com um pedido explícito por conteúdo proibido, como discurso de ódio, instruções para autoagressão ou suicídio, material sexual e orientações para fabricar itens perigosos, como armas ou explosivos.

Os versos foram submetidos a 25 dos principais modelos de IA disponíveis hoje, de nove empresas distintas — entre elas OpenAI, Google, Anthropic, Mistral AI, Meta, DeepSeek, xAI, Moonshot AI e Qwen.

Por conta da possibilidade de replicação desses poemas para fins maliciosos, os pesquisadores não os divulgaram. 

chatbots
Apesar de serem desenvolvidas com recursos de segurança para não gerar conteúdos impróprios, algumas IAs apresentaram falhas (Imagem: Owlie Productions/Shutterstock)

Leia mais:

Resultados

  • Dos testes, cerca de 62% dos poemas resultaram em respostas inseguras — ou seja, os chatbots forneceram o conteúdo proibido solicitado.
  • A eficácia da utilização de poemas para burlar os sistemas de segurança variou entre os modelos: por exemplo, o modelo GPT-5 nano, da OpenAI, não cedeu a nenhum dos poemas — recusou os pedidos indevidos. Já o Gemini 2.5 Pro, da Google, respondeu a todos os 20. Dois modelos da Meta aceitaram 70% dos prompts.
IA música
Foi notado que uma linguagem poética confunde diversas ferramentas de IA
(Imagem: Something Special/ Shuttestock)

Por que a poesia confunde os filtros de segurança

Segundo os autores do estudo, a falha se deve à forma como modelos de linguagem geram texto: normalmente, eles preveem a próxima palavra com base nas anteriores, e usam filtros para barrar conteúdo perigoso.

Entretanto, a estrutura não convencional da poesia — com ritmo, métrica, metáforas e construções menos diretas — dificulta essa previsão e causa falhas na detecção de intenções nocivas. Em outras palavras: a linguagem poética desfaz os padrões esperados pelos filtros, tornando-os ineficazes.

Diferente dos recursos usados por hackers ou especialistas em segurança, com prompts complexos e em várias etapas para manipular o modelo de linguagem, os poemas oferecidos pelo Icaro Lab foram enviados de uma vez só, sem diálogos prévios ou contexto adicional. Isso torna o método mais acessível e potencialmente perigoso para qualquer pessoa que desejar explorar a falha.

Inteligência artificial
Pelo que o estudo indica, as empresas nas quais seus chatbots apresentaram fragilidade, precisam realizar ajustes nas ferramentas (Imagem: Summit Art Creations/Shutterstock)

Alerta às empresas de IA

Antes da publicação do estudo, os pesquisadores fizeram questão de contatar cada uma das companhias de IA envolvidas nos testes e realizar um alerta em relação à vulnerabilidade do sistema. 

Conforme informações do portal Euronews, apenas a Anthropic respondeu afirmando que a empresa está analisando o estudo.

O post Poesia que engana: versos feitos para “trapacear” chatbots de IA burlam proteções de segurança apareceu primeiro em Olhar Digital.