Inférence
Le moment où le modèle travaille pour vous.
L'analogie
L'entraînement, ce sont les années d'école d'un chef ; l'inférence, c'est cuisiner votre plat quand vous le commandez. Les études ont eu lieu une fois et ont coûté une fortune ; la cuisine se répète à chaque commande et doit être rapide.
En détail
L'inférence est l'exécution du modèle déjà entraîné pour générer des réponses : les poids ne changent pas, ils sont seulement calculés. Chaque token généré exige un passage dans tout le réseau — c'est pourquoi les réponses « s'écrivent » progressivement (streaming). Des optimisations comme la quantification, le cache de contexte et le batching réduisent coût et latence.
Un exemple
Quand vous voyez la réponse apparaître mot à mot, ce n'est pas un effet de style : le modèle calcule chaque token à cet instant précis, l'un après l'autre.