Retour au wiki

RAG (génération augmentée par récupération)

Le modèle arrête de mémoriser et commence à consulter.

L'analogie

C'est la différence entre un examen de mémoire et un examen avec documents autorisés. Sans RAG, le modèle répond uniquement avec ce qu'il a « mémorisé » pendant son entraînement. Avec le RAG, avant de répondre, il consulte votre bibliothèque — documents, manuels, bases de données — et rédige sa réponse en s'appuyant sur ce qu'il trouve.

En détail

Le RAG (Retrieval-Augmented Generation) combine un moteur de recherche et un générateur : la question est convertie en vecteurs, les fragments les plus pertinents sont récupérés dans une base documentaire (recherche sémantique) puis injectés dans le contexte du modèle pour qu'il réponde en s'y appuyant. Il réduit les hallucinations et permet d'utiliser des informations privées ou récentes sans réentraîner le modèle.

Un exemple

Un chatbot de support avec RAG n'invente pas votre politique de remboursement : il retrouve le document officiel de votre entreprise, le lit et répond en le citant.

Concepts liés