Retour au wiki

Transformer

L'architecture qui a rendu tout le reste possible.

L'analogie

Dans une fête, vous n'écoutez pas tout le monde de la même façon : vous prêtez attention à qui dit quelque chose d'important pour vous. Le transformer a donné cette capacité aux machines : l'« attention » permet à chaque mot de regarder tous les autres et de décider lesquels comptent pour son sens.

En détail

Architecture de réseau de neurones présentée en 2017 dans l'article « Attention Is All You Need ». Son mécanisme d'auto-attention traite toutes les positions de la séquence en parallèle et capture des relations à longue distance, ce qui la rend bien plus entraînable à grande échelle que les réseaux récurrents antérieurs. GPT, Claude, Gemini et Llama sont des transformers.

Un exemple

Dans « Le chat que nous avons vu hier au parc dormait », pour comprendre « dormait », le modèle doit le relier à « le chat », huit mots plus tôt. L'attention fait exactement cela.

Concepts liés