Barriere di sicurezza (guardrail)
Le regole che evitano che l'assistente esca di strada.
L'analogia
Sono come i guardrail di una strada di montagna: non guidano al posto tuo, ma impediscono di finire fuori in curva. Filtrano ciò che entra e ciò che esce affinché l'assistente non dica né faccia cose pericolose o fuori luogo.
Nel dettaglio
I guardrail sono controlli aggiunti attorno al modello: filtri di contenuto, regole nel prompt di sistema, validazione degli output e limiti su quali strumenti può usare. Non cambiano il modello dentro; lo avvolgono perché il suo comportamento sia sicuro e prevedibile.
Un esempio
Un assistente medico ben protetto si rifiuta di dare una diagnosi definitiva, evita di consigliare dosi precise e suggerisce sempre di rivolgersi a un professionista. Questi rifiuti sono i guardrail all'opera.