Voltar à wiki

Tokens

As peças em que a IA divide todo o texto.

A analogia

Para a IA, o texto é como uma construção de Lego: não vê palavras inteiras, mas peças mais pequenas chamadas tokens. “Olá” pode ser uma única peça; “extraordinário” pode ser três ou quatro. A IA lê e escreve peça a peça.

Em detalhe

Um token é a unidade mínima que o modelo processa: pode ser uma palavra, um pedaço de palavra ou um sinal de pontuação. Os tokenizadores (como o BPE) dividem o texto nestas unidades. Isto importa porque os limites de contexto e os preços das API medem-se em tokens, não em palavras. Em português, uma palavra equivale em média a 1,5–2 tokens.

Um exemplo

A frase “A inteligência artificial é fascinante” poderia ser dividida assim: “A”, “ inteligência”, “ artificial”, “ é”, “ fascin”, “ante”. Seis tokens para cinco palavras.

Conceitos relacionados