Inferenza — Promptpedia

01

L'analogia

L'addestramento è come gli anni di scuola di uno chef; l'inferenza è cucinare il tuo piatto quando lo ordini. Lo studio è avvenuto una volta ed è costato una fortuna; la cucina avviene a ogni comanda e deve essere veloce.

02

Nel dettaglio

L'inferenza è l'esecuzione del modello già addestrato per generare risposte: i pesi non cambiano, vengono solo calcolati. Ogni token generato richiede un passaggio per tutta la rete: ecco perché le risposte «si scrivono» progressivamente (streaming). Ottimizzazioni come quantizzazione, cache del contesto e batching riducono costi e latenza.

03

Un esempio

Un esempio Promptpedia

Quando vedi la risposta apparire parola per parola, non è un effetto estetico: il modello sta calcolando ogni token in quel preciso istante, uno dopo l'altro.

04

Addestramento Token Temperatura