Embeddings
Transformer le sens en coordonnées qu'une machine peut comparer.
L'analogie
Imaginez une carte géante où chaque mot ou phrase a son adresse : « chien » et « chiot » habitent la même rue, « voiture » est dans un autre quartier et « facture » dans une autre ville. Un embedding, c'est cette adresse : des nombres qui placent chaque texte sur la carte du sens, de sorte que « proche » signifie « semblable ».
En détail
Un embedding est un vecteur (des centaines ou des milliers de nombres) qui représente le sens d'un texte, d'une image ou d'un son. Des textes similaires produisent des vecteurs proches, ce qui permet la recherche sémantique : comparer des distances plutôt que des mots exacts. C'est la pièce qui fait fonctionner le RAG, les recommandations et la détection de doublons.
Un exemple
Vous cherchez « comment retourner une commande ? » et le système trouve le document « Politique de remboursement » alors qu'ils ne partagent pas un seul mot : leurs embeddings sont voisins sur la carte.