Tokens
Die Bausteine, in die KI jeden Text zerlegt.
Der Vergleich
Für die KI ist Text wie ein Lego-Bauwerk: Sie sieht keine ganzen Wörter, sondern kleinere Teile, die Tokens heißen. „Hallo“ kann ein einziger Baustein sein; „außergewöhnlich“ besteht vielleicht aus drei oder vier. Die KI liest und schreibt Baustein für Baustein.
Im Detail
Ein Token ist die kleinste Einheit, die das Modell verarbeitet: ein Wort, ein Wortfragment oder ein Satzzeichen. Tokenizer (wie BPE) zerlegen Text in diese Einheiten. Das ist wichtig, weil Kontextgrenzen und API-Preise in Tokens gemessen werden, nicht in Wörtern. Deutsche Wörter sind oft lang und werden gern in mehrere Tokens zerlegt – im Schnitt etwa 2 Tokens pro Wort.
Ein Beispiel
Der Satz „Künstliche Intelligenz ist faszinierend“ könnte so zerlegt werden: „K“, „ünstliche“, „ Intelligenz“, „ ist“, „ faszin“, „ierend“. Sechs Tokens für vier Wörter.