Nem tão autônomos assim: estudo da Microsoft mostra limites dos agentes de IA em tarefas longas

Poder delegar tarefas complexas para inteligências artificiais que planejam, executam e entregam resultados sem supervisão constante é sedutor. Ferramentas como o Microsoft 365 Copilot ou modelos avançados como o Claude vêm sendo apresentados exatamente dessa forma, como assistentes capazes de lidar com fluxos de trabalho inteiros. Mas, na realidade, a história parece bem menos estável.

Um estudo recente conduzido por pesquisadores da própria Microsoft joga água fria nesse entusiasmo. Ao testar modelos de linguagem em tarefas longas e com múltiplas etapas, os resultados mostram que esses sistemas ainda estão longe de operar com confiabilidade quando o trabalho exige continuidade e consistência.

Quando a tarefa é longa, a IA se perde

Para avaliar esse cenário, os pesquisadores criaram o benchmark DELEGATE-52, que simula fluxos de trabalho reais em 52 áreas profissionais, de programação até contabilidade e música. Eles observaram como modelos lidam com tarefas que exigem interações consecutivas, algo comum no mundo real.

O resultado não foi animador. Mesmo modelos de ponta, como o Gemini, apresentaram perda média de cerca de 25% do conteúdo ao longo de 20 interações. Considerando todos os modelos testados, a degradação média chegou a 50%.

Em termos práticos, isso significa que documentos são alterados, partes desaparecem ou são corrompidas ao longo do processo. Não são apenas de pequenos erros acumulados, muitas vezes, a falha acontece de forma abrupta, com perdas significativas em uma única etapa.

Se a ideia é que agentes de IA, modelos com acesso a ferramentas como leitura e escrita de arquivos, consigam lidar melhor com esse tipo de tarefa, os dados também não ajudam. Quando os modelos foram colocados nesse modo “agentic”, o desempenho piorou.

A degradação média aumentou em cerca de 6%. Em outras palavras, dar mais autonomia e ferramentas para a IA não resolveu o problema, em alguns casos, agravou.

Isso contraria diretamente a narrativa atual de mercado, que aposta em agentes como a próxima grande evolução da automação. Plataformas que prometem fluxos completos executados por IA ainda esbarram em uma limitação básica: manter a coerência ao longo do tempo.

Um bom programador, um péssimo editor

Curiosamente, os modelos se saíram melhor em tarefas de programação. No domínio de Python, por exemplo, os resultados chegaram perto do nível considerado “aceitável” pelos pesquisadores.

Já em tarefas baseadas em linguagem natural, como edição de texto, organização de documentos ou reescrita, o desempenho caiu drasticamente. Em cerca de 80% dos cenários, houve o que os autores chamam de “corrupção severa”, com perdas significativas de conteúdo.

Esse contraste ajuda a entender onde a IA atual funciona melhor: ambientes mais estruturados, com regras claras e menor ambiguidade. Fora disso, o desempenho ainda oscila demais.

O estudo chega em um momento em que empresas aceleram investimentos pesados em automação baseada em IA. Segundo estimativas de mercado citadas pelos pesquisadores, organizações já destinam mais de um terço de seus orçamentos digitais para esse tipo de tecnologia.

Ao mesmo tempo, o próprio setor começa a ajustar o discurso. A ideia de sistemas totalmente autônomos, capazes de substituir fluxos humanos complexos, ainda parece distante.

A conclusão dos pesquisadores é: usuários precisam continuar monitorando de perto qualquer sistema de IA que execute tarefas em seu nome. Delegar completamente, pelo menos por enquanto, não é uma opção segura.

Ajude o Diolinux a seguir independente e crescente: seja membro Diolinux Play e tenha acesso a benefícios exclusivos!