Fenêtre de contexte
La mémoire de travail du modèle : ce qui n'y rentre pas n'existe pas.
L'analogie
Pensez à un bureau d'étudiant : il peut accueillir vos notes, un livre et pas grand-chose de plus. Pour y poser un atlas géant, il faut enlever quelque chose. La fenêtre de contexte, c'est ce bureau : le modèle ne peut « voir » que ce qui y tient à un instant donné.
En détail
C'est le nombre maximal de tokens que le modèle peut traiter à la fois, en additionnant votre prompt, la conversation précédente et sa propre réponse. Si la conversation dépasse la limite, les anciens messages sont tronqués ou résumés et le modèle les « oublie ». Les modèles actuels gèrent de quelques milliers à plusieurs millions de tokens.
Un exemple
Vous collez un contrat de 300 pages et posez une question sur la clause 2. Si le document dépasse la fenêtre, le modèle n'a peut-être jamais « lu » cette partie : mieux vaut le découper ou utiliser des techniques comme le RAG.