
Quando um chatbot responde a perguntas, cria um texto ou analisa imagens, ele não lida com frases inteiras, fotos ou vídeos. Para processar esses dados, a IA divide o conteúdo em pedacinhos chamados tokens, que são unidades de informação que ajudam os modelos a entender, processar e gerar respostas.
- Prompt, tokens, LLM e mais: 10 termos de IA essenciais para o seu dia a dia
- AGI | O que é inteligência artificial geral?
A seguir, tire suas dúvidas sobre:
- O que são tokens?
- Como os tokens funcionam?
- Por que os tokens são usados para cobrar o uso da IA?
O que são tokens?
Um token é uma pequena unidade de dados criada a partir da quebra de informações maiores. Em textos, ele pode ser uma palavra, parte de um termo ou vários caracteres.
-
Entre no Canal do WhatsApp do Canaltech e fique por dentro das últimas notícias sobre tecnologia, lançamentos, dicas e tutoriais incríveis.
-
Assim, um token costuma corresponder a cerca de quatro caracteres em inglês, mas o número pode mudar conforme idioma, modelo e tipo de informação processada.
Como os tokens funcionam?
O funcionamento dos tokens está ligado a um processo chamado tokenização. É ele que transforma textos, imagens, áudios ou vídeos em blocos menores que a IA consegue analisar.
Durante o treinamento, os modelos de IA são expostos a bilhões ou trilhões de tokens. Eles aprendem observando padrões e tentando prever qual será o próximo token em uma sequência.
Se erram, ajustam seus parâmetros, mas se acertam, reforçam aquele caminho. Esse processo se repete até que o modelo consiga gerar respostas coerentes.
Quando um usuário envia um comando, o mesmo fluxo acontece:
- A entrada é convertida em tokens;
- O modelo processa essa sequência;
- A resposta é gerada token por token;
- Esses tokens são convertidos novamente em algo legível, como texto, imagem ou som.
Como os blocos de informações são divididos?
A forma como os dados são transformados em tokens depende do formato da informação:
- Textos costumam ser divididos em palavras, partes de palavras ou caracteres;
- Imagens são convertidas em representações numéricas baseadas em pixels e regiões visuais;
- Áudios são fragmentados a partir de trechos do som ao longo do tempo;
- Vídeos juntam imagem, movimento e áudio, o que faz com que consumam muito mais tokens.
Ou seja, quanto mais complexo e denso o conteúdo, maior será o consumo de tokens. É por isso que um vídeo de poucos segundos pode gastar mais tokens que um texto longo.
O que é “input” e “output”?
O input (entrada) corresponde aos dados que o usuário envia para o modelo, como texto ou imagem anexada. Já o output (saída) é a resposta gerada pela IA.
Uma pergunta curta pode gerar um output grande, assim como um input longo pode resultar em uma resposta breve. Cada um desses lados é contabilizado separadamente.
O que é processamento em lotes?
O processamento em lotes, ou batch processing, é uma forma de usar a inteligência artificial para executar grandes volumes de tarefas sem exigir respostas imediatas. As solicitações são enviadas de uma só vez e processadas durante horas ou um dia inteiro.
Esse tipo de uso costuma ter custo menor, já que muitas plataformas aplicam descontos no valor dos tokens quando o processamento acontece em lote.
Por que os tokens são usados para cobrar o uso da IA?
Os tokens são usados para cobrar o uso da IA através de APIs porque eles representam quanto trabalho computacional o modelo precisou realizar para atender a uma solicitação.
Eles funcionam como uma unidade de medida, assim como quilowatt-hora mede consumo de energia elétrica, por exemplo.
Quanto mais tokens uma tarefa exige, mais recursos de processamento ela consome. Isso torna a cobrança mais justa e transparente, já que usuários pagam apenas pelo volume de dados que realmente utilizam.
Além disso, esse modelo de cobrança se adapta a diferentes formatos de conteúdo. Um texto, imagem e áudio podem ser comparados entre si porque todos são convertidos em tokens antes de serem processados.
Como calcular o uso da IA?
O uso da inteligência artificial é calculado de acordo com o modelo e o serviço, sendo comum a cobrança por milhão de tokens, com preços diferentes para input e output.
É comum que tokens de saída sejam mais caros que os de entrada, já que gerar conteúdo exige mais esforço computacional.
Por exemplo, o Gemini 2.5 Flash, do Google, cobra US$ 0,30 por milhão de tokens de entrada e US$ 2,50 por milhão de saída. Já o GPT‑5.2 Pro, da OpenAI, chega a US$ 21 por milhão de tokens de input e US$ 168 por milhão de output.
O tipo de conteúdo também influencia no custo. Textos costumam consumir menos tokens, enquanto imagens, áudios e, principalmente, vídeos aumentam o volume processado e, consequentemente, o preço.
Confira outros conteúdos do Canaltech:
- O que é um prompt de comando?
- O que é LLM? | Large Language Model
- O que é IA multimodal? Entenda o seu funcionamento
VÍDEO: Por que tudo agora tem Inteligência Artificial gratuita? É de graça mesmo? E a paga?
Leia a matéria no Canaltech.