Retour au wiki

Entraînement

Comment un modèle passe de ne rien savoir à parler de tout.

L'analogie

Pensez à la formation d'un médecin : d'abord des années à lire toute la bibliothèque (pré-entraînement), puis un internat encadré avec des cas corrigés par des tuteurs (ajustement par exemples), et enfin les retours de vrais patients qui polissent sa manière (affinage par préférences humaines).

En détail

L'entraînement typique a plusieurs phases : pré-entraînement auto-supervisé sur des milliers de milliards de tokens (prédire le mot suivant), ajustement supervisé sur des exemples de qualité (SFT) et apprentissage par renforcement à partir de feedback humain (RLHF) pour aligner le comportement. Entraîner un grand modèle coûte des millions ; l'utiliser (l'inférence), des centimes.

Un exemple

Le même modèle de base qui complète « Paris est la capitale de… » apprend, après l'ajustement, à répondre poliment, refuser les demandes nuisibles et respecter le format demandé.

Concepts liés