Voltar à wiki
Barreiras de segurança (guardrails)
As regras que evitam que o assistente saia da estrada.
A analogia
São como os rails de uma estrada de montanha: não conduzem por ti, mas impedem que te despistes na curva. Filtram o que entra e o que sai para que o assistente não diga nem faça coisas perigosas ou fora de lugar.
Em detalhe
Os guardrails são controlos acrescentados à volta do modelo: filtros de conteúdo, regras no prompt de sistema, validação das respostas e limites sobre que ferramentas pode usar. Não mudam o modelo por dentro; envolvem-no para que o comportamento seja seguro e previsível.
Um exemplo
Um assistente médico bem protegido recusa-se a dar um diagnóstico definitivo, evita recomendar doses concretas e sugere sempre recorrer a um profissional. Essas recusas são os guardrails em ação.