Inferenza
Il momento in cui il modello lavora per te.
L'analogia
L'addestramento è come gli anni di scuola di uno chef; l'inferenza è cucinare il tuo piatto quando lo ordini. Lo studio è avvenuto una volta ed è costato una fortuna; la cucina avviene a ogni comanda e deve essere veloce.
Nel dettaglio
L'inferenza è l'esecuzione del modello già addestrato per generare risposte: i pesi non cambiano, vengono solo calcolati. Ogni token generato richiede un passaggio per tutta la rete: ecco perché le risposte «si scrivono» progressivamente (streaming). Ottimizzazioni come quantizzazione, cache del contesto e batching riducono costi e latenza.
Un esempio
Quando vedi la risposta apparire parola per parola, non è un effetto estetico: il modello sta calcolando ogni token in quel preciso istante, uno dopo l'altro.