Embeddings
Bedeutung in Koordinaten verwandeln, die eine Maschine vergleichen kann.
Der Vergleich
Stell dir eine riesige Landkarte vor, auf der jedes Wort und jeder Satz eine Adresse hat: „Hund“ und „Welpe“ wohnen in derselben Straße, „Auto“ in einem anderen Viertel und „Rechnung“ in einer anderen Stadt. Ein Embedding ist diese Adresse: Zahlen, die jeden Text auf der Landkarte der Bedeutung verorten – „nah“ heißt dort „ähnlich“.
Im Detail
Ein Embedding ist ein Vektor (Hunderte oder Tausende Zahlen), der die Bedeutung eines Textes, Bildes oder Audios repräsentiert. Ähnliche Texte erzeugen nahe Vektoren – das ermöglicht semantische Suche: Distanzen vergleichen statt exakter Wörter. Es ist das Bauteil, das RAG, Empfehlungssysteme und Duplikaterkennung antreibt.
Ein Beispiel
Du suchst „Wie schicke ich eine Bestellung zurück?“ und das System findet das Dokument „Erstattungsrichtlinie“, obwohl beide kein einziges Wort teilen: Ihre Embeddings liegen auf der Karte nebeneinander.