Zurück zum Wiki

Transformer

Die Architektur, die alles andere möglich machte.

Der Vergleich

Auf einer Party hörst du nicht allen gleich zu: Du achtest auf den, der etwas für dich Relevantes sagt. Der Transformer gab Maschinen diese Fähigkeit: Die „Attention“ lässt jedes Wort auf alle anderen schauen und entscheiden, welche für seine Bedeutung zählen.

Im Detail

Eine 2017 im Aufsatz „Attention Is All You Need“ vorgestellte Architektur neuronaler Netze. Ihr Selbst-Attention-Mechanismus verarbeitet alle Positionen einer Sequenz parallel und erfasst weitreichende Beziehungen – dadurch ist sie im großen Maßstab viel besser trainierbar als frühere rekurrente Netze. GPT, Claude, Gemini und Llama sind Transformer.

Ein Beispiel

In „Die Katze, die wir gestern im Park sahen, schlief“ muss das Modell „schlief“ mit „die Katze“ verbinden – acht Wörter entfernt. Genau das leistet die Attention.

Verwandte Konzepte