Retour au wiki

Inférence

Le moment où le modèle travaille pour vous.

L'analogie

L'entraînement, ce sont les années d'école d'un chef ; l'inférence, c'est cuisiner votre plat quand vous le commandez. Les études ont eu lieu une fois et ont coûté une fortune ; la cuisine se répète à chaque commande et doit être rapide.

En détail

L'inférence est l'exécution du modèle déjà entraîné pour générer des réponses : les poids ne changent pas, ils sont seulement calculés. Chaque token généré exige un passage dans tout le réseau — c'est pourquoi les réponses « s'écrivent » progressivement (streaming). Des optimisations comme la quantification, le cache de contexte et le batching réduisent coût et latence.

Un exemple

Quand vous voyez la réponse apparaître mot à mot, ce n'est pas un effet de style : le modèle calcule chaque token à cet instant précis, l'un après l'autre.

Concepts liés