Volver a la wiki

Barreras de seguridad (guardrails)

Las normas que evitan que el asistente se salga del carril.

La analogía

Son como las barreras de una carretera de montaña: no conducen por ti, pero impiden que te salgas en la curva. Filtran lo que entra y lo que sale para que el asistente no diga ni haga cosas peligrosas o fuera de lugar.

En detalle

Los guardrails son controles añadidos alrededor del modelo: filtros de contenido, reglas en el prompt de sistema, validación de las salidas y límites sobre qué herramientas puede usar. No cambian el modelo por dentro; lo envuelven para que su comportamiento sea seguro y predecible.

Un ejemplo

Un asistente médico bien protegido se niega a dar un diagnóstico definitivo, evita recomendar dosis concretas y siempre sugiere acudir a un profesional. Esas negativas son los guardrails actuando.

Conceptos relacionados