IA multimodal — Promptpedia

01

La analogía

Una persona no entiende el mundo solo leyendo: mira fotos, escucha conversaciones, interpreta gráficos. Los modelos multimodales dan ese salto: en lugar de manejar solo texto, procesan imágenes, audio o vídeo como parte de la misma conversación.

02

En detalle

Un modelo multimodal convierte distintos tipos de entrada (imagen, audio, texto) en representaciones internas compatibles, normalmente proyectándolas al mismo espacio que los tokens de texto. Así puede describir una foto, leer una factura escaneada o generar imágenes. La fusión ocurre dentro del propio modelo, no en programas separados.

03

Un ejemplo

Un ejemplo Promptpedia

Le mandas la foto del cuadro eléctrico de casa y preguntas: “¿qué interruptor habrá saltado si no hay luz en la cocina?”. El modelo “mira” la imagen, lee las etiquetas y razona sobre ellas.

04

Embeddings LLM (gran modelo de lenguaje) Agentes de IA