Poesia que engana: versos feitos para “trapacear” chatbots de IA burlam proteções de segurança

Pesquisadores do Icaro Lab, laboratório ligado à empresa de IA ética DexAI, identificaram uma vulnerabilidade preocupante em modelos de linguagem: poemas podem driblar os mecanismos de segurança de muitos chatbots avançados.

Como foi realizados o teste

Para testar isso, a equipe elaborou 20 poemas em inglês e italiano. Apesar da forma aparentemente inofensiva, cada um deles encerrava com um pedido explícito por conteúdo proibido, como discurso de ódio, instruções para autoagressão ou suicídio, material sexual e orientações para fabricar itens perigosos, como armas ou explosivos.

Os versos foram submetidos a 25 dos principais modelos de IA disponíveis hoje, de nove empresas distintas — entre elas OpenAI, Google, Anthropic, Mistral AI, Meta, DeepSeek, xAI, Moonshot AI e Qwen.

Por conta da possibilidade de replicação desses poemas para fins maliciosos, os pesquisadores não os divulgaram.

chatbots — Apesar de serem desenvolvidas com recursos de segurança para não gerar conteúdos impróprios, algumas IAs apresentaram falhas (Imagem: Owlie Productions/Shutterstock)

Leia mais:

Resultados

Dos testes, cerca de 62% dos poemas resultaram em respostas inseguras — ou seja, os chatbots forneceram o conteúdo proibido solicitado.
A eficácia da utilização de poemas para burlar os sistemas de segurança variou entre os modelos: por exemplo, o modelo GPT-5 nano, da OpenAI, não cedeu a nenhum dos poemas — recusou os pedidos indevidos. Já o Gemini 2.5 Pro, da Google, respondeu a todos os 20. Dois modelos da Meta aceitaram 70% dos prompts.

IA música — Foi notado que uma linguagem poética confunde diversas ferramentas de IA
(Imagem: Something Special/ Shuttestock)

Por que a poesia confunde os filtros de segurança

Segundo os autores do estudo, a falha se deve à forma como modelos de linguagem geram texto: normalmente, eles preveem a próxima palavra com base nas anteriores, e usam filtros para barrar conteúdo perigoso.

Entretanto, a estrutura não convencional da poesia — com ritmo, métrica, metáforas e construções menos diretas — dificulta essa previsão e causa falhas na detecção de intenções nocivas. Em outras palavras: a linguagem poética desfaz os padrões esperados pelos filtros, tornando-os ineficazes.

Diferente dos recursos usados por hackers ou especialistas em segurança, com prompts complexos e em várias etapas para manipular o modelo de linguagem, os poemas oferecidos pelo Icaro Lab foram enviados de uma vez só, sem diálogos prévios ou contexto adicional. Isso torna o método mais acessível e potencialmente perigoso para qualquer pessoa que desejar explorar a falha.

Inteligência artificial — Pelo que o estudo indica, as empresas nas quais seus chatbots apresentaram fragilidade, precisam realizar ajustes nas ferramentas (Imagem: Summit Art Creations/Shutterstock)

Alerta às empresas de IA

Antes da publicação do estudo, os pesquisadores fizeram questão de contatar cada uma das companhias de IA envolvidas nos testes e realizar um alerta em relação à vulnerabilidade do sistema.

Conforme informações do portal Euronews, apenas a Anthropic respondeu afirmando que a empresa está analisando o estudo.

O post Poesia que engana: versos feitos para “trapacear” chatbots de IA burlam proteções de segurança apareceu primeiro em Olhar Digital.