Google apresenta Gemini 3.1 Flash-Lite, modelo de IA mais rápido da marca

Ontem (03), a gigante de tecnologia Google anunciou em seu blog o novo modelo de inteligência artificial da marca: o Gemini 3.1 Flash-Lite, divulgado como o mais rápido e eficiente dentre a família Gemini 3.

Segundo a própria empresa, a novidade é superior ao modelo Gemini Flash 2.5, é até 25% mais rápida, e apresenta níveis significativos de “processamentos dinâmicos para se adequar à complexidade da tarefa“. O anúncio também foi divulgado em um tuíte na página oficial da empresa no X.

Developers can now preview Gemini 3.1 Flash-Lite, our fastest and most cost-efficient Gemini 3 series model yet.

With a 45% increase in output speed, it outperforms 2.5 Flash and features dynamic thinking levels to match task complexity.

Rolling out in preview today in… pic.twitter.com/BdJHRFx9SI
— Google (@Google) March 3, 2026

Entendendo as novidades do Gemini 3.1 Flash-Lite

No X, o Google informou aos seguidores que é possível acessar previamente o Gemini 3.1 Flash-Lite e testá-lo via Google AI Studio ou pelo Vertex AI.

Enquanto o Google AI Studio concentra-se como uma ferramenta web destinada a desenvolvedores e pesquisadores de IA, a Vertex auxilia usuários a customizar modelos de IA com seus próprios dados e recursos de segurança.

A empresa declara o seguinte:

O 3.1 Flash-Lite consegue lidar com tarefas em grande escala, como tradução de alto volume e moderação de conteúdo, onde o custo é uma prioridade. E também consegue lidar com cargas de trabalho mais complexas que exigem raciocínio mais aprofundado, como geração de interfaces de usuário e painéis, criação de simulações ou execução de instruções.
— Google em seu anúncio de lançamento via blog

Interações logas com chatbots podem aumentar os riscos de delírios (Imagem: Summit Art Creations/Shutterstock) — Huma interagindo com inteligência artificial (Imagem: Summit Art Creations/Shutterstock)

Leia mais:

Outro fator compartilhado pela equipe de desenvolvedores é o valor médio para utilização do produto: os usuários só pagam US$ 0,25 a cada 1 milhão de tokens de entrada. Ou seja, na soma de todos os prompts enviados, você paga 25 centavos de dólar a cada 1 milhão de tokens. Já para os tokens de saída, gerados pelas respostas, o valor sobe para US$ 1,50.

Esses valores do novo Gemini 3.1 Flash‑Lite são mais baratos que os modelos anteriores (como o Gemini 2.5) porque foi otimizado para usar menos recursos computacionais sem perder qualidade, cobrando menos por cada milhão de tokens processados: você paga apenas US$ 0,25 pelos tokens que envia e US$ 1,50 pelos tokens que o modelo gera, enquanto ainda mantém respostas rápidas e precisas, tornando-o ideal para aplicações que precisam de alta frequência de interações em tempo real.

O chatbot ainda dá aos usuários “o controle e a flexibilidade para selecionar o quanto o modelo ‘pensa’ para uma tarefa, o que é essencial para gerenciar cargas de trabalho de alta frequência.”

O Gemini 3.1 Flash‑Lite demonstra o esforço do Google em oferecer modelos de IA eficientes, porém, mais baratos, ao reduzir os custos por token processado e acelerar o tempo de resposta.

Com recursos de processamento dinâmico, ele permite que desenvolvedores ajustem o nível de raciocínio do modelo conforme a complexidade da tarefa, tornando-o adequado tanto para aplicações simples quanto para fluxos de trabalho de alta frequência.

O post Google apresenta Gemini 3.1 Flash-Lite, modelo de IA mais rápido da marca apareceu primeiro em Olhar Digital.