O que são tokens? Entenda como funciona a 'unidade fundamental' da IA

Quando um chatbot responde a perguntas, cria um texto ou analisa imagens, ele não lida com frases inteiras, fotos ou vídeos. Para processar esses dados, a IA divide o conteúdo em pedacinhos chamados tokens, que são unidades de informação que ajudam os modelos a entender, processar e gerar respostas.

A seguir, tire suas dúvidas sobre:

O que são tokens?
Como os tokens funcionam?
Por que os tokens são usados para cobrar o uso da IA?

O que são tokens?

Um token é uma pequena unidade de dados criada a partir da quebra de informações maiores. Em textos, ele pode ser uma palavra, parte de um termo ou vários caracteres.

-
Entre no Canal do WhatsApp do Canaltech e fique por dentro das últimas notícias sobre tecnologia, lançamentos, dicas e tutoriais incríveis.
-

Assim, um token costuma corresponder a cerca de quatro caracteres em inglês, mas o número pode mudar conforme idioma, modelo e tipo de informação processada.

Como os tokens funcionam?

O funcionamento dos tokens está ligado a um processo chamado tokenização. É ele que transforma textos, imagens, áudios ou vídeos em blocos menores que a IA consegue analisar.

Durante o treinamento, os modelos de IA são expostos a bilhões ou trilhões de tokens. Eles aprendem observando padrões e tentando prever qual será o próximo token em uma sequência.

Se erram, ajustam seus parâmetros, mas se acertam, reforçam aquele caminho. Esse processo se repete até que o modelo consiga gerar respostas coerentes.

Quando um usuário envia um comando, o mesmo fluxo acontece:

A entrada é convertida em tokens;
O modelo processa essa sequência;
A resposta é gerada token por token;
Esses tokens são convertidos novamente em algo legível, como texto, imagem ou som.

Como os blocos de informações são divididos?

A forma como os dados são transformados em tokens depende do formato da informação:

Textos costumam ser divididos em palavras, partes de palavras ou caracteres;
Imagens são convertidas em representações numéricas baseadas em pixels e regiões visuais;
Áudios são fragmentados a partir de trechos do som ao longo do tempo;
Vídeos juntam imagem, movimento e áudio, o que faz com que consumam muito mais tokens.

Ou seja, quanto mais complexo e denso o conteúdo, maior será o consumo de tokens. É por isso que um vídeo de poucos segundos pode gastar mais tokens que um texto longo.

Apps de IA — Para processar as informações e gerar as respostas, a IA divide o conteúdo em blocos chamados token. (Imagem: Solen Feyissa/Unsplash)

O que é “input” e “output”?

O input (entrada) corresponde aos dados que o usuário envia para o modelo, como texto ou imagem anexada. Já o output (saída) é a resposta gerada pela IA.

Uma pergunta curta pode gerar um output grande, assim como um input longo pode resultar em uma resposta breve. Cada um desses lados é contabilizado separadamente.

O que é processamento em lotes?

O processamento em lotes, ou batch processing, é uma forma de usar a inteligência artificial para executar grandes volumes de tarefas sem exigir respostas imediatas. As solicitações são enviadas de uma só vez e processadas durante horas ou um dia inteiro.

Esse tipo de uso costuma ter custo menor, já que muitas plataformas aplicam descontos no valor dos tokens quando o processamento acontece em lote.

Por que os tokens são usados para cobrar o uso da IA?

Os tokens são usados para cobrar o uso da IA através de APIs porque eles representam quanto trabalho computacional o modelo precisou realizar para atender a uma solicitação.

Eles funcionam como uma unidade de medida, assim como quilowatt-hora mede consumo de energia elétrica, por exemplo.

Quanto mais tokens uma tarefa exige, mais recursos de processamento ela consome. Isso torna a cobrança mais justa e transparente, já que usuários pagam apenas pelo volume de dados que realmente utilizam.

Além disso, esse modelo de cobrança se adapta a diferentes formatos de conteúdo. Um texto, imagem e áudio podem ser comparados entre si porque todos são convertidos em tokens antes de serem processados.

Como calcular o uso da IA?

O uso da inteligência artificial é calculado de acordo com o modelo e o serviço, sendo comum a cobrança por milhão de tokens, com preços diferentes para input e output.

É comum que tokens de saída sejam mais caros que os de entrada, já que gerar conteúdo exige mais esforço computacional.

Por exemplo, o Gemini 2.5 Flash, do Google, cobra US$  0,30 por milhão de tokens de entrada e US$  2,50 por milhão de saída. Já o GPT‑5.2 Pro, da OpenAI, chega a US$  21 por milhão de tokens de input e US$  168 por milhão de output.

O tipo de conteúdo também influencia no custo. Textos costumam consumir menos tokens, enquanto imagens, áudios e, principalmente, vídeos aumentam o volume processado e, consequentemente, o preço.

Confira outros conteúdos do Canaltech:

VÍDEO: Por que tudo agora tem Inteligência Artificial gratuita? É de graça mesmo? E a paga?

Leia a matéria no Canaltech.