Cache, contexto e custo: o dilema da Anthropic com o Claude Code

O Claude Code entrou no radar de desenvolvedores nas últimas semanas por mudanças no modelo de negócio que começaram a afetar diretamente o uso e o custo da ferramenta.

No centro da discussão está o sistema de cache de prompts, um mecanismo essencial para qualquer assistente de código baseado em IA. Ele permite reutilizar contexto já processado, como trechos de código, instruções e histórico, sem precisar recalcular tudo a cada interação. Em teoria, isso melhora desempenho e reduz custos. Na prática recente, nem todos concordam.

A Anthropic alterou o tempo de vida (TTL) desse cache: de uma hora para apenas cinco minutos em muitos casos. A mudança tem impacto direto no bolso, especialmente para quem trabalha com sessões longas e contextos extensos.

Quanto menor o TTL, maior a chance de “cache miss”. Isso significa que o sistema precisa reprocessar todo o contexto novamente, consumindo mais tokens e, consequentemente, mais da cota disponível.

Para quem usa o Claude Code como uma espécie de copiloto contínuo, isso é um problema real. Sessões interrompidas por alguns minutos já podem invalidar o cache. E em fluxos mais complexos, com múltiplos arquivos e instruções longas, o custo explode rapidamente.

Usuários começaram a perceber isso na prática. Relatos indicam que cotas mensais, antes suficientes, passaram a se esgotar muito mais rápido. Alguns desenvolvedores afirmam que, após meses de uso consistente, só começaram a atingir limites justamente depois da mudança no cache.

A explicação oficial, no entanto, segue outra linha

Segundo a Anthropic, o ajuste foi pensado para reduzir custos médios. A justificativa é que muitos usos do sistema são “one-shot”, ou seja, requisições únicas que não se beneficiariam de um cache mais longo. Nesse cenário, um TTL menor evita custos adicionais de escrita em cache mais persistente.

O problema é que o Claude Code não é usado apenas assim. Diferente de chatbots tradicionais, ferramentas de programação com IA operam frequentemente com sessões longas, múltiplos agentes e grandes volumes de contexto. E aqui entra outro fator crítico: o tamanho da janela de contexto.

Modelos mais avançados, como os usados no Claude Code, suportam até 1 milhão de tokens de contexto. Isso permite análises profundas e manipulação de projetos inteiros, mas também torna cada “cache miss” extremamente caro.

Se o cache expira e todo esse contexto precisa ser reprocessado, o consumo de tokens dispara. Em sessões pausadas, como quando o usuário se afasta por um tempo, isso pode acontecer repetidamente sem que o usuário perceba imediatamente.

Desenvolvedores da própria Anthropic já reconheceram esse efeito. Há discussões internas sobre reduzir o contexto padrão para algo em torno de 400 mil tokens, mantendo a opção de expandir para 1 milhão quando necessário. A ideia seria equilibrar poder e custo.

Nem tudo se resume a decisões de design

Parte da comunidade também aponta possíveis bugs no sistema de cache. Alguns usuários relatam comportamentos inconsistentes, sugerindo que o problema pode ser mais profundo do que apenas a mudança no TTL. Se o cache não está sendo utilizado corretamente, qualquer otimização teórica perde efeito.

Além disso, há uma percepção crescente de queda na qualidade das respostas. Relatos mencionam sessões mais curtas, respostas redundantes e loops de raciocínio, sinais de que algo mudou não só na eficiência, mas também na experiência geral.

Isso levanta uma hipótese mais ampla: o custo real de uso pode estar aumentando por trás das cenas. Se os modelos estão mais caros de operar ou se os limites foram ajustados, mudanças como o TTL do cache podem ser apenas uma forma indireta de equilibrar essa equação sem alterar explicitamente os planos.

Fique por dentro das principais novidades da semana sobre tecnologia e Linux: receba nossa newsletter!