"Truque" do Google faz IA rodar 3x mais rápido no celular; veja como

O Google anunciou recentemente o Gemma 4 como seu modelo aberto de inteligência artificial (IA) com raciocínio mais avançado e voltado ao uso em bots inteligentes. No entanto, toda essa potência pode resultar em maior consumo de recursos e respostas mais lentas — e a empresa agora apresenta uma solução para essas limitações.

A companhia revelou um novo “truque” técnico que permite fazer com que o Gemma 4 rode até três vezes mais rápido, inclusive em celulares. A saída encontrada foi combinar o modelo principal com modelos auxiliares menores, que trabalham em conjunto.

Esses auxiliares fazem parte da técnica chamada Multi-Token Prediction (MTP). Na prática, eles antecipam partes da resposta que será gerada, enquanto o modelo principal valida essas previsões em paralelo durante o processamento.

-
Entre no Canal do WhatsApp do Canaltech e fique por dentro das últimas notícias sobre tecnologia, lançamentos, dicas e tutoriais incríveis.
-

“Ao usar uma arquitetura de decodificação especulativa, esses modelos de rascunho oferecem até 3x mais velocidade sem qualquer perda na qualidade da saída ou na lógica de raciocínio”, destaca o Google em comunicado.

Gemma 4 MTP — Modelos "auxiliares" do Gemma 4 aumentam a velocidade de geração de tokens em até 3 vezes (Imagem: Divulgação/Google)

Como essa combinação acontece na prática?

O ganho de desempenho descrito pela gigante das buscas vem de uma mudança na forma como o texto é gerado pelos modelos de linguagem. Em vez de produzir uma palavra por vez, como acontece tradicionalmente, o sistema desenvolvido pelo Google consegue antecipar múltiplos trechos de uma resposta de uma só vez.

Essa abordagem usa uma técnica chamada decodificação especulativa, que acelera a geração de texto ao dividir o trabalho entre o modelo principal e seus auxiliares.

Fica a cargo do modelo auxiliar antecipar partes da resposta, funcionando como um rascunho que sugere possíveis continuações para o texto. Enquanto isso, o modelo principal valida essas sugestões em paralelo antes de entregar a resposta final ao usuário.

“Se o modelo principal concordar com o rascunho, ele aceita toda a sequência em uma única passagem — e ainda gera um token adicional nesse processo. Isso significa que sua aplicação pode produzir toda a sequência prevista mais um token no mesmo tempo que normalmente levaria para gerar apenas um”, explica a empresa.

Com essa combinação de modelos, o Google destaca que algumas melhorias observadas por quem utiliza o Gemma 4 devem ser:

Respostas mais rápidas em chats quase em tempo real, apps de voz e ferramentas com IA que executam tarefas automaticamente;
Possibilidade de rodar modelos avançados em PCs comuns e até offline, facilitando o desenvolvimento e o uso no dia a dia;
Melhor desempenho em celulares e outros dispositivos, com respostas mais ágeis e menor consumo de bateria;
Mesma qualidade nas respostas, já que o modelo principal continua revisando tudo antes de entregar o resultado.

Os modelos de rascunho com MTP do Gemma 4 já estão disponíveis sob a mesma licença Apache 2.0 do modelo principal. Eles podem ser baixados em plataformas como Hugging Face, Kaggle e Ollama, e tem compatibilidade com as ferramentas Transformers, vLLM, llama.cpp, LM Studio e Keras.

Se você pretende mergulhar cada vez mais no universo da inteligência artificial, é cada vez mais importante entender qual a diferença entre IA generativa e agentes de IA.

Leia a matéria no Canaltech.