Voltar à wiki

Barreiras de segurança (guardrails)

As regras que evitam que o assistente saia da estrada.

A analogia

São como os rails de uma estrada de montanha: não conduzem por ti, mas impedem que te despistes na curva. Filtram o que entra e o que sai para que o assistente não diga nem faça coisas perigosas ou fora de lugar.

Em detalhe

Os guardrails são controlos acrescentados à volta do modelo: filtros de conteúdo, regras no prompt de sistema, validação das respostas e limites sobre que ferramentas pode usar. Não mudam o modelo por dentro; envolvem-no para que o comportamento seja seguro e previsível.

Um exemplo

Um assistente médico bem protegido recusa-se a dar um diagnóstico definitivo, evita recomendar doses concretas e sugere sempre recorrer a um profissional. Essas recusas são os guardrails em ação.

Conceitos relacionados