Torna alla wiki

Barriere di sicurezza (guardrail)

Le regole che evitano che l'assistente esca di strada.

L'analogia

Sono come i guardrail di una strada di montagna: non guidano al posto tuo, ma impediscono di finire fuori in curva. Filtrano ciò che entra e ciò che esce affinché l'assistente non dica né faccia cose pericolose o fuori luogo.

Nel dettaglio

I guardrail sono controlli aggiunti attorno al modello: filtri di contenuto, regole nel prompt di sistema, validazione degli output e limiti su quali strumenti può usare. Non cambiano il modello dentro; lo avvolgono perché il suo comportamento sia sicuro e prevedibile.

Un esempio

Un assistente medico ben protetto si rifiuta di dare una diagnosi definitiva, evita di consigliare dosi precise e suggerisce sempre di rivolgersi a un professionista. Questi rifiuti sono i guardrail all'opera.

Concetti collegati