IA multimodale — Promptpedia

01

L'analogia

Una persona non capisce il mondo solo leggendo: guarda foto, ascolta conversazioni, interpreta grafici. I modelli multimodali fanno quel salto: invece di gestire solo testo, elaborano immagini, audio o video come parte della stessa conversazione.

02

Nel dettaglio

Un modello multimodale converte diversi tipi di input (immagine, audio, testo) in rappresentazioni interne compatibili, di solito proiettandole nello stesso spazio dei token di testo. Così può descrivere una foto, leggere una fattura scansionata o generare immagini. La fusione avviene dentro il modello stesso, non in programmi separati.

03

Un esempio

Un esempio Promptpedia

Gli mandi la foto del quadro elettrico di casa e chiedi: «quale interruttore sarà scattato se in cucina non c'è luce?». Il modello «guarda» l'immagine, legge le etichette e ci ragiona sopra.

04

Embedding LLM (grande modello linguistico) Agenti IA