O custo invisível dos tokens: por que a conta da IA não para de subir?

A inteligência artificial generativa entrou nas empresas com promessa de ganho de produtividade. Agora, parte desse mercado começa a lidar com o outro lado da moeda: quanto mais a IA trabalha, mais tokens são consumidos e, em muitas plataformas, o gasto de créditos fica maior.

A mudança aparece em ferramentas de programação, atendimento, análise de documentos e agentes autônomos. O que antes, no geral, cabia em uma assinatura mensal começa a migrar para modelos baseados em uso, em que tarefas mais longas, complexas ou repetitivas podem consumir rapidamente os créditos disponíveis.

Os sinais dessa virada já são visíveis na indústria como um todo. No começo de junho, o GitHub instituiu uma nova política de cobrança baseada em uso no Copilot. Não demorou muito e a mudança foi alvo de reclamações depois que usuários viram seus créditos mensais serem consumidos em poucas horas.

-
Entre no Canal do WhatsApp do Canaltech e fique por dentro das últimas notícias sobre tecnologia, lançamentos, dicas e tutoriais incríveis.
-

Segundo o portal Bloomberg, a Uber instituiu um teto mensal por funcionário e por ferramenta de codificação agêntica. A medida veio depois de a empresa ter consumido seu orçamento anual de IA em apenas quatro meses.

A Cisco também passou a tratar o consumo de tokens como ponto de atenção. Em uma teleconferência de resultados, de acordo com a revista Wired, o CEO Chuck Robbins afirmou que um terço dos funcionários usa diariamente um chatbot interno de IA e que, com esse nível de adoção, o uso de tokens estava ficando “bem fora do comum”.

GitHub Copilot adota modelo de cobrança por uso (Imagem: Créditos: Mohammad Rahmani/Unsplash)
GitHub Copilot adota modelo de cobrança por uso (Imagem: Créditos: Mohammad Rahmani/Unsplash)

A conta que saiu do plano fixo

A lógica por trás da mudança é simples: nem todo uso de IA custa a mesma coisa. Uma pergunta rápida em um chatbot consome muito menos recursos do que uma sessão autônoma de programação, por exemplo.

Em sistemas de IA, o token é a unidade de dados processada pelo modelo, como partes de palavras, comandos e trechos de código, que virou uma espécie de unidade de medida do uso da tecnologia. Assim, quanto maior a entrada, a resposta e o número de etapas intermediárias, maior tende a ser o consumo.

Essa diferença ficou mais relevante com a popularização de agentes de IA, que não apenas respondem a uma pergunta, mas podem planejar, executar tarefas, usar ferramentas e revisar o próprio trabalho. Na prática, eles agem em ciclos, e cada ciclo aumenta a cobrança.

A contradição é que o custo unitário da IA está caindo. Em março, a Gartner projetou que, até 2030, o custo de inferência para provedores de IA generativa será reduzido em mais de 90% em relação a 2025.

A mesma análise mostra que modelos de 2030 serão até 100 vezes mais eficientes do que as primeiras tecnologias de tamanho similar desenvolvidas em 2022.

Mesmo assim, isso não resolve o problema, uma vez que sistemas agênticos exigem entre cinco e 30 vezes mais tokens por demanda do que um chatbot padrão, segundo a consultoria.

Em entrevista ao Canaltech, o vice-presidente de Pesquisa para CIOs e Líderes de Inteligência Artificial da Gartner, Luis Mangi, afirma que o modelo por uso é flexível, mas não resolve sozinho o aumento da conta. Para ele, esse tipo de cobrança ainda incentiva o consumo crescente sem mecanismos robustos de otimização ou limitação.

“Não se trata de uma falha estrutural, mas de um desafio inerente à maturidade do mercado”, diz. “A solução passa por estratégias de governança de uso, renegociação de contratos e implementação de métricas de eficiência, além de possíveis ajustes nos modelos de precificação para refletir o valor agregado, e não apenas o volume consumido.”

Já o coordenador do MBA em IA, Data Science e Big Data para Negócios do Ibmec São Paulo, Cristiano Correa, destaca que a conta depende de três variáveis: preço por token, volume de tokens e frequência de uso. No entanto, apenas o primeiro está em queda.

“Mesmo com custo unitário menor, se o volume e a frequência sobem, o custo total sobe. A janela de contexto saltou de 4 mil tokens nos primeiros modelos para até 2 milhões hoje, e o consumo cresceu de forma acentuada com a cadeia de pensamentos (CoT), o uso de ferramentas, os loops de revisão e os tokens de ‘pensamento’ cobrados como saída”, explica.

Agentes de IA consomem mais tokens do que chatbots tradicionais (Imagem: Solen Feyissa/Unsplash)
Agentes de IA consomem mais tokens do que chatbots tradicionais (Imagem: Solen Feyissa/Unsplash)

Agentes mudam a matemática

Nos agentes, o custo não se limita à resposta final exibida ao usuário, mas envolve etapas invisíveis do processo que podem gerar novas chamadas e ampliar os gastos.

Correa observa que muitas empresas ainda calculam projetos de IA agêntica como se fossem chatbots tradicionais. Na fase de protótipo, a conta costuma considerar uma chamada por interação. Em produção, porém, o comportamento muda.

Afinal, o agente pode operar em loop, fazer várias iterações e acionar ferramentas externas. Uma requisição inicialmente estimada como simples pode consumir muito mais tokens quando entra em contato com situações reais, que não aparecem na fase de testes.

Segundo o sócio-diretor da Peers Consulting + Technology, Marcello Mussi, isso acontece porque agentes não executam apenas uma solicitação pontual. “Ao atribuir uma missão ou função a um agente, essa função normalmente é recursiva e cíclica”, afirma. “Ela permanece em execução, não realiza uma tarefa pontual e encerra.”

Esse tipo de funcionamento dificulta a previsibilidade de gastos.

Em um agente de atendimento, por exemplo, a IA pode receber a pergunta de um cliente, consultar o histórico de compras, buscar regras internas, verificar o status de um pedido e revisar a resposta antes de enviá-la. O usuário vê apenas a mensagem final, mas cada etapa intermediária pode consumir mais tokens.

O diretor do Centro de Excelência em IA da Universidade Federal de Goiás (CEIA-UFG), Arlindo Galvão, compara esse comportamento a um funcionário prolixo e indeciso. Ao receber uma demanda simples, como agendar uma reunião, ele poderia checar a agenda várias vezes, refazer convites e corrigir o próprio trabalho antes de entregar o resultado final.

A analogia ajuda a explicar por que o consumo pode crescer sem percepção clara do usuário.

“O usuário só vê o resultado final, mas a IA ‘conversou consigo mesma’ centenas de vezes nos bastidores, consumindo milhares de tokens. Se o código não tiver travas, o agente pode entrar em um loop infinito de raciocínio lógico e queimar o orçamento da empresa em minutos”, explica.

Esse processo também cobra pelo erro. Mussi lembra que, quando um agente interpreta mal uma instrução, executa uma atividade equivocada e depois corrige a rota, todos esses passos entram na fatura.

Na prática, a empresa paga pelo acerto e também pelas tentativas que não produziram valor.

Gastos globais com infraestrutura de IA devem crescer em 2026, mostra levantamento (Imagem: Anna Shvets/pexels)
Gastos globais com infraestrutura de IA devem crescer em 2026, mostra levantamento (Imagem: Anna Shvets/pexels)

A pressão chega ao orçamento

O aumento do consumo também pressiona o orçamento de tecnologia, na infraestrutura necessária para rodar IA e na operação de produtos que passaram a embutir modelos generativos em tarefas do dia a dia.

A IDC projeta que os gastos globais com infraestrutura de IA chegarão a US$ 487 bilhões em 2026, alta de aproximadamente 53% em relação ao ano anterior. A cifra inclui investimentos em data centers, servidores, chips, redes e outros recursos necessários para sustentar aplicações de IA.

Até 2029, o mercado global de infraestrutura de IA deve superar US$ 1 trilhão, com crescimento médio anual de cerca de 30% a partir de 2025.

Além disso, segundo um levantamento global da McKinsey com líderes de tecnologia e negócios, metade das organizações planeja aumentar seus orçamentos de tecnologia em mais de 4% em 2026 ante 2025. O estudo relaciona parte desse movimento à necessidade de escalar sistemas de IA agêntica.

Diante desse cenário, o coordenador do Ibmec observa que algumas empresas já começaram a mudar a pergunta. Em vez de olhar apenas para o preço por token, passam a calcular quanto custa uma tarefa completa e se esse valor pode ser absorvido pelo produto ou pelo processo de negócio.

O CEO da 87Labs, Thiago Pisano, destaca que produtos baseados em IA precisam equilibrar custo e receita. Para ele, medir o uso por cliente é necessário para cobrar de forma proporcional, sem sufocar quem usa pouco.

Essa lógica também exige mudanças na arquitetura dos produtos. “Você precisa metrificar o uso do cliente em relação ao custo, e ter estratégias de arquitetura para não depender de um modelo, e sim usar modelos adequados para cada desafio, mitigando o custo e a complexidade”, afirma.

Retorno financeiro ainda não acompanha ritmo de adoção da IA nas empresas (Imagem: Hack Capital/Unsplash)
Retorno financeiro ainda não acompanha ritmo de adoção da IA nas empresas (Imagem: Hack Capital/Unsplash)

O retorno ainda não acompanha a adoção

O avanço da IA nas empresas é amplo, mas o retorno financeiro ainda aparece de forma desigual. O estudo State of AI da McKinsey indica que quase nove em cada dez organizações usam IA regularmente em ao menos uma função.

A pesquisa global também mostra que agentes já são testados pela maioria das organizações, mas apenas 39% atribuem algum ganho de EBIT, o lucro antes de juros e impostos, ao uso da tecnologia.

Mesmo entre essas empresas, a McKinsey afirma que a contribuição da IA costuma representar menos de 5% do resultado operacional.

O quadro revela que, apesar da utilidade percebida, a adoção da IA nem sempre se reflete de forma relevante no resultado financeiro das empresas. É nesse espaço entre adoção e retorno que o custo dos tokens ganha peso: a tecnologia pode funcionar, mas precisa operar a um custo compatível com o valor que entrega.

Para Galvão, parte desse descompasso vem do uso de modelos mais potentes e mais caros em tarefas simples. “Muitas empresas usam o modelo de IA mais potente e mais caro do mundo apenas para ler e-mails de clientes e dizer se o tom é ‘bravo’ ou ‘feliz’”, afirma.

Nesses casos, o gasto com tokens pode superar o ganho de produtividade, pois uma solicitação menos complexa, repetida em grande volume, pode ficar mais cara quando executada por um modelo de fronteira.

O diretor do CEIA-UFG afirma que o retorno sobre o investimento só aparece quando a empresa deixa de usar “força bruta”.

“O segredo do lucro com IA hoje não é usar o modelo mais inteligente para tudo, mas sim saber usar o menor e mais barato modelo possível para resolver cada problema específico”, pontua.

Governança vira parte da arquitetura de sistemas de IA (Imagem: Zulfugar Karimov/Unsplash)
Governança vira parte da arquitetura de sistemas de IA (Imagem: Zulfugar Karimov/Unsplash)

Governança vira parte da arquitetura

Controlar os gastos de IA não depende apenas de olhar a conta no fim do mês. Quando modelos generativos entram em produtos, atendimentos e fluxos internos, parte da governança precisa ser desenhada dentro do próprio sistema.

Isso significa definir quais tarefas podem usar recursos mais potentes, quando acionar alternativas mais baratas, quando reaproveitar contexto e quando interromper uma operação.

Para Mangi, da Gartner, a surpresa com o consumo de tokens revela uma lacuna de governança financeira em IA.

“Esse cenário indica que o mercado ainda está em fase de amadurecimento, com práticas de controle e monitoramento insuficientes. Falta transparência nos relatórios de uso, integração entre equipes técnicas e financeiras, e políticas claras de gestão de custos”, pontua.

Na avaliação do executivo, é preciso adotar métricas de uso e alertas automatizados. Sem esse tipo de acompanhamento, as empresas só descobrem o problema quando a despesa já ocorreu, e a gestão deixa de ser apenas contratual para depender da forma como o produto ou o fluxo de trabalho foi construído.

A lógica se aproxima da computação em nuvem, em que equipes acompanham o consumo por serviço, área e aplicação. No caso da IA, a conta precisa ser acompanhada por usuário, produto, cliente, modelo e tarefa, porque cada escolha técnica pode alterar a despesa final.

O desafio fica ainda maior quando a IA está embutida diretamente em um produto. O CEO da 87Labs explica que, ao utilizar um modelo integrado, é preciso cruzar o uso do próprio sistema com o uso feito por cada cliente, um processo mais complexo do que medir apenas o uso individual de uma ferramenta.

Essa gestão, para Pisano, precisa estar no desenho do próprio sistema. Isso inclui o uso de diferentes modelos, acionar alternativas quando a opção principal falha ou fica caro demais, reaproveitar informações já processadas e direcionar demandas menos complexas para ferramentas menos onerosas.

Galvão também defende o uso de roteadores de IA. A lógica é reservar sistemas mais robustos para decisões complexas e enviar operações básicas, como correção de texto ou classificação inicial, para opções mais leves.

“Se a tarefa é simples, o sistema usa um modelo leve e ultrabarato. O modelo grande e caro só entra em ação para decisões complexas”, afirma o diretor do CEIA.

Imprevisibilidade de gastos pode dificultar a expansão do uso de IA nas pequenas empresas (Imagem: Reprodução/Freepik)
Imprevisibilidade de gastos pode dificultar a expansão do uso de IA nas pequenas empresas (Imagem: Reprodução/Freepik)

Escala com restrições

A cobrança por token não cria, necessariamente, uma barreira de entrada imediata. Pelo contrário, o mecanismo permite que pequenas empresas usem os mesmos modelos avançados adotados por grandes corporações, sem comprar servidores, chips ou infraestrutura própria.

O problema aparece quando o produto cresce, o número de usuários aumenta e a conta deixa de ser experimental. Nesse ponto, a previsibilidade do gasto passa a depender de volume, frequência de uso, complexidade das tarefas e capacidade de negociar preços com fornecedores.

Correa vê o preço por token como um nivelador no acesso inicial. Para ele, startups e grandes empresas podem usar o mesmo modelo de ponta, algo raro em outros ciclos tecnológicos, mas a diferença surge depois, quando o gasto cresce.

O risco de concentração, para o coordenador do Ibmec, é real e se manifesta no estágio de escala, não no de entrada.

“Quando o volume cresce, o que separa os players é a capacidade de absorver as variações de consumo e o poder de negociar melhores preços”, explica. “Na prática, isso já acontece. Os grandes diluem os custos, enquanto os pequenos precisam construir com governança muito mais rígida. Grandes empresas podem errar, aprender e otimizar, porém startups precisam acertar cedo, porque não têm muita margem para erro.”

Mussi também avalia que a barreira inicial ainda não é alta para startups. O executivo da Peers Consulting + Technology cita créditos, planos especiais e a possibilidade de usar modelos open source, que podem ser adaptados ou executados fora de plataformas fechadas, conforme a licença.

A leitura da Gartner é mais cautelosa. Mangi avalia que a imprevisibilidade da despesa e a ausência de descontos progressivos ou pacotes customizados podem dificultar a escala para empresas menores.

Na prática, o acesso pode ser amplo no começo, mas a capacidade de controlar gastos e negociar contratos tende a pesar conforme o uso aumenta.

Leia a matéria no Canaltech.