Transformer
Die Architektur, die alles andere möglich machte.
Der Vergleich
Auf einer Party hörst du nicht allen gleich zu: Du achtest auf den, der etwas für dich Relevantes sagt. Der Transformer gab Maschinen diese Fähigkeit: Die „Attention“ lässt jedes Wort auf alle anderen schauen und entscheiden, welche für seine Bedeutung zählen.
Im Detail
Eine 2017 im Aufsatz „Attention Is All You Need“ vorgestellte Architektur neuronaler Netze. Ihr Selbst-Attention-Mechanismus verarbeitet alle Positionen einer Sequenz parallel und erfasst weitreichende Beziehungen – dadurch ist sie im großen Maßstab viel besser trainierbar als frühere rekurrente Netze. GPT, Claude, Gemini und Llama sind Transformer.
Ein Beispiel
In „Die Katze, die wir gestern im Park sahen, schlief“ muss das Modell „schlief“ mit „die Katze“ verbinden – acht Wörter entfernt. Genau das leistet die Attention.