IA multimodale
Des modèles qui ne se contentent pas de lire : ils voient, écoutent et dessinent.
L'analogie
On ne comprend pas le monde uniquement en lisant : on regarde des photos, on écoute des conversations, on interprète des graphiques. Les modèles multimodaux franchissent ce cap : au lieu de ne traiter que du texte, ils gèrent images, audio ou vidéo au sein d'une même conversation.
En détail
Un modèle multimodal convertit différents types d'entrées (image, audio, texte) en représentations internes compatibles, généralement projetées dans le même espace que les tokens de texte. Il peut ainsi décrire une photo, lire une facture scannée ou générer des images. La fusion se fait à l'intérieur du modèle lui-même, pas dans des programmes séparés.
Un exemple
Vous envoyez la photo du tableau électrique de la maison et demandez : « quel disjoncteur a probablement sauté s'il n'y a plus de lumière dans la cuisine ? ». Le modèle « regarde » l'image, lit les étiquettes et raisonne dessus.