IA multimodale
Modelli che non si limitano a leggere: vedono, ascoltano e disegnano.
L'analogia
Una persona non capisce il mondo solo leggendo: guarda foto, ascolta conversazioni, interpreta grafici. I modelli multimodali fanno quel salto: invece di gestire solo testo, elaborano immagini, audio o video come parte della stessa conversazione.
Nel dettaglio
Un modello multimodale converte diversi tipi di input (immagine, audio, testo) in rappresentazioni interne compatibili, di solito proiettandole nello stesso spazio dei token di testo. Così può descrivere una foto, leggere una fattura scansionata o generare immagini. La fusione avviene dentro il modello stesso, non in programmi separati.
Un esempio
Gli mandi la foto del quadro elettrico di casa e chiedi: «quale interruttore sarà scattato se in cucina non c'è luce?». Il modello «guarda» l'immagine, legge le etichette e ci ragiona sopra.