Como hackers manipulam IAs para cometer crimes?

A engenharia social, historicamente, vem sendo uma arma usada para enganar humanos com e-mails, ligações e suporte falsos, levando ao roubo de dados e dinheiro.

Atualmente, o escopo de vítimas aumentou para também incluir as máquinas: modelos de linguagem como ChatGPT, Claude e Gemini são programados para serem prestativos, e isso é explorado para que cibercriminosos descubram brechas em sistemas, criem malwares e muito mais.

O jailbreak linguístico

Antes usado apenas para descrever técnicas de desbloqueio de aparelhos, como celulares, hoje jailbreak também se refere a métodos para contornar as limitações das IAs definidas pelos desenvolvedores.

-
Entre no Canal do WhatsApp do Canaltech e fique por dentro das últimas notícias sobre tecnologia, lançamentos, dicas e tutoriais incríveis.
-

Convencer um chatbot de IA de que você tem intenções boas para procurar brechas em sistemas valiosos é mais fácil do que criar um código hacker do zero (Imagem: Reprodução/Freepik)

Ao invés de pedir diretamente “crie um vírus para mim”, por exemplo, o cibercriminoso cria um cenário imaginário, como uma competição de hackers éticos, uma caça à recompensa pelo encontro de vulnerabilidades e situações afins para forçar a IA a ignorar as regras, dando as informações sigilosas pedidas. Assim surgiu o termo “jailbreak linguístico”.

Manipulação de contexto

A persuasão digital usada pelos agentes mal-intencionados é construída em torno de contextos. Assumindo personas de autoridade, os hackers convencem a LLM de que são pesquisadores de segurança com cargos altos, professores universitários precisando de exemplos de código malicioso e muito mais.

Como não pode verificar essas informações no mundo real, a IA presume que isso seja verdade, acredita nas boas intenções do usuário e relaxa as defesas éticas.

Você pode estar se perguntando: por que o hacker conversa com a IA ao invés de programar uma LLM maliciosa ou invadir o sistema? A resposta está na automação e escala do ataque. Não é muito difícil convencer uma LLM legítima a escrever dezenas de e-mails de phishing perfeitos, sem erros e muito persuasivos em apenas alguns segundos.

Incapaz de verificar se o usuário realmente é um pesquisador de segurança o mundo real, a IA o ajuda a criar vírus de maneira prestativa, acreditando estar contribuindo para um mundo melhor (imagem: Reprodução/Teiss)

Isso também diminui a barreira de entrada para o crime: embora existam hackers que criam suas próprias LLMs ou invadam outras, alguém com menos conhecimento técnico sequer precisa entender de programação para pedir à IA que traduza comandos maliciosos simples em scripts de invasão profissionais.

Como a tecnologia também consegue reescrever os códigos de maneira levemente diferente a cada iteração, essa capacidade de mutação dos malwares também é uma arma valiosa na mão dos criminosos, que enganam cada vez mais os antivírus tradicionais.

A cibersegurança do futuro

A segurança da informação, outrora altamente técnica, agora não é mais exclusiva dos campos matemático e criptográfico: linguística e psicologia passaram a fazer parte do mundo hacker e dos especialistas em defender instituições de ataques orquestrados.

A nova corrida armamentista da cibersegurança está vendo desenvolvedores criando vacinas e filtros rigorosos para impedir que IAs sejam manipuladas, enquanto cibercriminosos fazem prompts cada vez mais criativos e teatrais.

Mesmo com a tecnologia da inteligência artificial evoluindo cada vez mais, a base do problema continua simples: a manipulação da linguagem e o poder de convencimento seguem, juntos, sendo a arma mais perigosa do mundo contra os internautas.

Confira também:

Leia a matéria no Canaltech.