Torna alla wiki

Inferenza

Il momento in cui il modello lavora per te.

L'analogia

L'addestramento è come gli anni di scuola di uno chef; l'inferenza è cucinare il tuo piatto quando lo ordini. Lo studio è avvenuto una volta ed è costato una fortuna; la cucina avviene a ogni comanda e deve essere veloce.

Nel dettaglio

L'inferenza è l'esecuzione del modello già addestrato per generare risposte: i pesi non cambiano, vengono solo calcolati. Ogni token generato richiede un passaggio per tutta la rete: ecco perché le risposte «si scrivono» progressivamente (streaming). Ottimizzazioni come quantizzazione, cache del contesto e batching riducono costi e latenza.

Un esempio

Quando vedi la risposta apparire parola per parola, non è un effetto estetico: il modello sta calcolando ogni token in quel preciso istante, uno dopo l'altro.

Concetti collegati