Retour au wiki

IA multimodale

Des modèles qui ne se contentent pas de lire : ils voient, écoutent et dessinent.

L'analogie

On ne comprend pas le monde uniquement en lisant : on regarde des photos, on écoute des conversations, on interprète des graphiques. Les modèles multimodaux franchissent ce cap : au lieu de ne traiter que du texte, ils gèrent images, audio ou vidéo au sein d'une même conversation.

En détail

Un modèle multimodal convertit différents types d'entrées (image, audio, texte) en représentations internes compatibles, généralement projetées dans le même espace que les tokens de texte. Il peut ainsi décrire une photo, lire une facture scannée ou générer des images. La fusion se fait à l'intérieur du modèle lui-même, pas dans des programmes séparés.

Un exemple

Vous envoyez la photo du tableau électrique de la maison et demandez : « quel disjoncteur a probablement sauté s'il n'y a plus de lumière dans la cuisine ? ». Le modèle « regarde » l'image, lit les étiquettes et raisonne dessus.

Concepts liés