A segurança de agentes de IA acaba de ganhar mais um alerta importante. Se durante anos as empresas concentraram seus esforços em treinar funcionários para identificar golpes de phishing e tentativas de engenharia social, agora surge um novo desafio: impedir que assistentes autônomos baseados em inteligência artificial sejam manipulados por criminosos.
Um estudo conduzido pela Varonis Labs mostrou que um agente de IA de código aberto chamado Pinchy, desenvolvido com o framework OpenClaw, foi enganado em diferentes cenários simulados de ataque. Em alguns casos, a IA chegou a compartilhar informações sensíveis, incluindo credenciais de infraestrutura e dados corporativos, simplesmente porque recebeu solicitações apresentadas como urgentes e legítimas.
A pesquisa chama atenção para um problema crescente. À medida que empresas começam a conectar agentes autônomos a serviços como Google Workspace, plataformas de CRM e ambientes em nuvem da AWS, surgem novos vetores de ataque capazes de explorar não vulnerabilidades técnicas tradicionais, mas sim falhas de julgamento dos próprios modelos de linguagem.
O experimento com o framework OpenClaw
O estudo da Varonis utilizou o OpenClaw, um framework open source criado para construir agentes autônomos capazes de executar tarefas corporativas reais.
No experimento, os pesquisadores configuraram um agente chamado Pinchy com acesso a diferentes recursos internos da organização. Entre eles estavam caixas de e-mail, documentos corporativos, sistemas de CRM e informações armazenadas em ambientes de nuvem.
O objetivo era avaliar como diferentes modelos de linguagem se comportariam quando recebessem solicitações potencialmente perigosas por meio de mensagens aparentemente legítimas.
Os testes envolveram versões do Gemini 3.1 Pro e do GPT-5.4, ambos operando com permissões suficientes para consultar dados corporativos e responder e-mails sem intervenção humana direta.
Essa configuração reproduz um cenário cada vez mais comum dentro das empresas. Muitas organizações estão avaliando agentes capazes de atuar como assistentes administrativos, analistas de suporte ou operadores de processos internos, reduzindo tarefas repetitivas e aumentando a produtividade.
O problema é que essa autonomia também amplia a superfície de ataque.
Quando um agente consegue ler e-mails, acessar bancos de dados e executar ações automaticamente, um simples e-mail malicioso pode se transformar em uma porta de entrada para vazamentos significativos.

Imagem: Varonis
Como a segurança de agentes de IA falhou diante da engenharia social
O ponto mais preocupante da pesquisa foi demonstrar que os agentes não foram comprometidos por malware nem por exploração de vulnerabilidades de software.
Eles foram enganados por técnicas clássicas de engenharia social.
Os pesquisadores enviaram mensagens cuidadosamente elaboradas para simular situações de urgência operacional, algo amplamente utilizado por criminosos em campanhas reais de phishing.
Em um dos cenários, a IA recebeu uma solicitação apresentada como uma demanda crítica relacionada à infraestrutura da empresa. A mensagem indicava que determinadas informações eram necessárias imediatamente para evitar uma interrupção operacional.
Sem realizar verificações adicionais ou buscar confirmação humana, o agente acabou compartilhando dados sensíveis relacionados ao ambiente corporativo.
Entre as informações obtidas estavam referências a chaves AWS, credenciais de acesso e elementos ligados à administração de infraestrutura.
O comportamento expôs uma limitação importante dos modelos atuais: eles conseguem interpretar contexto, mas ainda têm dificuldade para avaliar confiança, intenção e legitimidade de solicitações recebidas.
Outro teste simulou uma situação envolvendo acesso a dados de clientes.
A mensagem enviada ao agente alegava a necessidade urgente de exportar informações de um sistema de CRM para fins operacionais.
Novamente, o agente aceitou a narrativa apresentada e realizou a tarefa solicitada sem aplicar mecanismos robustos de validação.
Na prática, o resultado foi semelhante ao que ocorreria em um incidente de vazamento de dados corporativos, demonstrando como ataques de phishing contra inteligência artificial podem gerar impactos reais mesmo sem explorar falhas técnicas convencionais.
Onde os agentes de IA acertaram
Nem todos os resultados foram negativos.
Os pesquisadores observaram que os modelos conseguiram identificar alguns padrões tradicionais de phishing que normalmente também são detectados por usuários treinados.
Mensagens relacionadas a golpes de cartão-presente, por exemplo, foram classificadas como suspeitas em diversos cenários.
Os agentes também apresentaram desempenho mais consistente diante de tentativas de indução para acessar links claramente maliciosos.
Outro ponto positivo foi a identificação de aplicativos OAuth falsos.
Nesse cenário, os agentes demonstraram maior cautela ao analisar pedidos de autorização para aplicativos externos que buscavam acesso a recursos corporativos.
A capacidade de reconhecer permissões excessivas e potenciais riscos associados ao OAuth mostrou que os modelos conseguem aplicar algumas regras de segurança quando os sinais de ameaça são mais evidentes.
Entretanto, os resultados indicam que ataques baseados em contexto e persuasão continuam sendo significativamente mais eficazes.
Comparativo de comportamento entre os modelos
O estudo também revelou diferenças interessantes entre os modelos avaliados.
Segundo os pesquisadores, o Gemini 3.1 Pro demonstrou maior disposição para cooperar com solicitações apresentadas como urgentes ou necessárias para a continuidade das operações.
Em diversas situações, o modelo buscou ser útil e resolver rapidamente o problema apresentado, mesmo quando isso envolvia ações potencialmente arriscadas.
Já o GPT-5.4 adotou uma postura mais cautelosa em vários cenários.
Embora também tenha apresentado falhas em determinadas situações, o modelo demonstrou maior tendência a questionar solicitações sensíveis ou buscar justificativas adicionais antes de executar algumas ações.
Os resultados reforçam que diferentes arquiteturas e estratégias de alinhamento podem influenciar diretamente a segurança em LLMs, especialmente quando esses sistemas recebem permissões amplas dentro de ambientes corporativos.
As lições da Varonis para proteger agentes autônomos
Uma das principais conclusões da pesquisa é que agentes de IA ainda não conseguem aplicar adequadamente o conceito de Zero Trust em interações sociais.
Em ambientes de segurança modernos, o princípio de Zero Trust estabelece que nenhuma solicitação deve ser considerada confiável automaticamente.
Cada ação deve ser validada, independentemente de sua origem aparente.
Os agentes testados, porém, demonstraram uma tendência natural a confiar em mensagens bem formuladas e contextualizadas.
Isso significa que criminosos podem explorar exatamente os mesmos mecanismos psicológicos utilizados contra seres humanos.
A diferença é que uma IA com acesso privilegiado pode movimentar grandes volumes de informações em questão de segundos.
Por esse motivo, a Varonis recomenda que empresas adotem mecanismos adicionais de proteção antes de conceder autonomia total a agentes inteligentes.
Entre as medidas mais importantes estão:
- Aprovação humana obrigatória para ações de alto risco.
- Segmentação rigorosa de permissões.
- Princípio do menor privilégio.
- Monitoramento contínuo de atividades dos agentes.
- Auditoria detalhada de todas as ações executadas.
- Validação contextual antes de exportação de dados sensíveis.
Essas práticas ajudam a reduzir o impacto de possíveis erros de julgamento cometidos pelos modelos.
Além disso, reforçam uma camada de proteção fundamental enquanto a tecnologia continua evoluindo.
Conclusão e o futuro da automação segura
O experimento da Varonis Labs deixa uma mensagem clara para empresas que desejam acelerar a adoção de agentes autônomos: produtividade e automação não podem vir à custa da segurança.
O caso envolvendo o OpenClaw demonstra que a segurança de agentes de IA ainda enfrenta desafios significativos, especialmente quando esses sistemas recebem acesso a e-mails corporativos, plataformas de CRM e ambientes em nuvem.
Embora os modelos tenham conseguido bloquear algumas ameaças tradicionais, eles continuam vulneráveis a ataques sofisticados de engenharia social que exploram contexto, urgência e confiança.
O futuro dos agentes inteligentes provavelmente passará por mecanismos mais avançados de validação, supervisão humana e controle de privilégios.
Até lá, conceder acesso irrestrito a sistemas corporativos pode transformar assistentes digitais em novos alvos para campanhas de phishing e vazamento de dados.