Retour au wiki

Tokens

Les pièces en lesquelles l'IA découpe tout le texte.

L'analogie

Pour l'IA, le texte est comme une construction en Lego : elle ne voit pas des mots entiers, mais des pièces plus petites appelées tokens. « Bonjour » peut être une seule pièce ; « extraordinaire » peut en faire trois ou quatre. L'IA lit et écrit pièce par pièce.

En détail

Un token est la plus petite unité traitée par le modèle : un mot, un fragment de mot ou un signe de ponctuation. Les tokeniseurs (comme BPE) découpent le texte en ces unités. C'est important car les limites de contexte et les tarifs des API se mesurent en tokens, pas en mots. En français, un mot équivaut en moyenne à 1,5–2 tokens.

Un exemple

La phrase « L'intelligence artificielle est fascinante » pourrait être découpée ainsi : « L'», « intelligence », « artificielle », « est », « fascin », « ante ». Six tokens pour quatre mots.

Concepts liés