Volver a la wiki

IA multimodal

Modelos que no solo leen: también ven, escuchan y dibujan.

La analogía

Una persona no entiende el mundo solo leyendo: mira fotos, escucha conversaciones, interpreta gráficos. Los modelos multimodales dan ese salto: en lugar de manejar solo texto, procesan imágenes, audio o vídeo como parte de la misma conversación.

En detalle

Un modelo multimodal convierte distintos tipos de entrada (imagen, audio, texto) en representaciones internas compatibles, normalmente proyectándolas al mismo espacio que los tokens de texto. Así puede describir una foto, leer una factura escaneada o generar imágenes. La fusión ocurre dentro del propio modelo, no en programas separados.

Un ejemplo

Le mandas la foto del cuadro eléctrico de casa y preguntas: “¿qué interruptor habrá saltado si no hay luz en la cocina?”. El modelo “mira” la imagen, lee las etiquetas y razona sobre ellas.

Conceptos relacionados