
Um estudo de um laboratório chinês de inteligência artificial teve um desfecho com cara de roteiro de ficção científica: um agente de IA desrespeitou as regras do treinamento e começou a minerar criptomoedas num ambiente externo com os recursos de hardware para treinamento do próprio modelo.
- O que é injeção de prompt?
- E se a IA flertar de volta? "Modo adulto" do ChatGPT preocupa especialistas
A pesquisa foi feita por um laboratório vinculado à Alibaba, uma das gigantes do varejo da China, durante um experimento para criar um ecossistema de aprendizado com agentes de IA. O modelo, que recebeu o nome de ROME, foi treinado a partir de outros LLMs para tomar ações por conta própria, como seguir fluxo de trabalho ou elaborar rotinas.
O ROME rodava em um sandbox experimental e controlado pelos pesquisadores. No entanto, a IA demonstrou um comportamento inesperado ao fugir das regras do ambiente de testes e agir por conta própria.
-
Entre no Canal do WhatsApp do Canaltech e fique por dentro das últimas notícias sobre tecnologia, lançamentos, dicas e tutoriais incríveis.
-
Entenda o que aconteceu
O acontecimento ainda está longe de ser igual ao que aconteceu com a Skynet nos filmes da franquia O Exterminador de Futuro, mas chama a atenção pela forma em que a IA agiu nesse cenário.
Normalmente, é possível “quebrar” as regras de um modelo com prompts, então o processo é guiado pelo usuário. O caso do estudo mostrou uma ação que coloca a segurança em risco feita sem instrução prévia.
De acordo com os pesquisadores, o ROME desrespeitou regras e autorizações para acessar o processamento dos recursos gráficos usados para treinar a própria IA. Então, usou todo o poder de hardware para minerar criptomoedas.
A ação, inclusive, passou ilesa de alguns mecanismos de segurança iniciais do período de teste, mas foi identificada pelo sistema de firewall da nuvem do Alibaba.
A escolha pela mineração foi atribuída a um efeito do aprendizado de reforço das IAs: o modelo tenta tomar as melhores decisões para conseguir atingir o desempenho máximo de um objetivo definido, então considerou mexer na infraestrutura do sistema durante o processo.=
O teste teve um desfecho positivo: os pesquisadores conseguiram identificar o problema, aumentar as restrições de segurança e evitar que o cenário se repetisse. Criado para ambientes com agentes de IA, o ROME segue em fase experimental, mas demonstrou bons resultados em testes de benchmark.
O estudo completo em inglês está disponível na plataforma ArXiv (arxiv.org/pdf/2512.24873)
Leia a matéria no Canaltech.