In questi anni stiamo assistendo a progressi nel campo dell’intelligenza artificiale sorprendenti. I modelli Deep Learning che sono alla base di questa tecnologia permettono ormai di raggiungere performance paragonabili a quelle umane in numerosi task: possiamo ad esempio leggere un articolo scritto da GPT-3 pensando che sia redatto da un essere umano, o magari possiamo interagire con un agente conversazionale sfruttando semplicemente la nostra voce, come se stessimo parlando con un’altra persona.
C’è tuttavia una differenza sostanziale tra intelligenza umana e artificiale che limita l’utilizzo di modelli AI in alcuni campi: se da una parte il nostro cervello è capace di processare diversi tipi di segnali (testi, immagini, audio ma anche odori e sapori) dall’altra la maggior parte dei modelli di AI attualmente in circolazione è pensata per processare solo una tipologia di input – testi per i modelli di Natural Language Processing (NLP), immagini per i modelli di Computer Vision e così via. Questa specificità dei modelli AI ne limita sia l’applicabilità ma anche la conoscenza. Basti pensare che, se da un lato un modello di Natural Language Processing impara cosa sia un gatto ‘leggendo’ le sue caratteristiche nei testi, dall’altro noi esseri umani in tenera età impariamo cosa sia un gatto semplicemente osservandone uno, avendo così nella nostra testa un’idea dell’animale più concreta e aderente alla realtà.
Per colmare questa distanza da alcuni anni a questa parte numerosi ricercatori stanno lavorando alla cosiddetta Intelligenza Artificiale Multimodale, la quale, come suggerisce il nome, punta a creare modelli AI capaci di processare input di più modalità (testo e immagini, testo e audio, testo e video, etc), come fa il cervello umano. Sebbene tecnologie di questo tipo siano emerse da relativamente poco tempo, possiamo dire che esistono già modelli multimodali degni di nota che hanno sorpreso la comunità scientifica (e non solo) per le loro capacità. Citiamo ad esempio il recente DALL-E 2, creato da OpenAI, capace di generare qualsivoglia immagine a partire da una descrizione testuale della stessa con dei livelli di dettaglio sorprendenti.

Problemi legati all’AI Multimodale
Addestrare da zero un modello di Intelligenza Artificiale moderno non è cosa facile, visti la quantità di dati e l’effort computazionale richiesti. Se per di più ci si vuole cimentare nella creazione di un modello AI multimodale bisogna mettere in conto uno sforzo ancora maggiore in quanto, oltre alle criticità citate prima, emergono nuovi problemi legati all’addestramento del modello specifici del mondo multimodale. Tra questi citiamo i due problemi che più hanno dato filo da torcere alla ricerca in questo campo:
- Scarsità di dati multimodali: nel mondo del Natural Language Processing le tecniche di apprendimento Self-supervised sfruttate nell’addestramento dei modelli utilizzano come dati i cosiddetti raw texts, ovvero testi non etichettati su cui non viene effettuato nessun tipo di lavoro manuale. Potete quindi immaginare come la quantità di dati (raw texts) reperibili da internet e utilizzabili per addestrare un modello NLP sia praticamente infinita! Al contrario per addestrare un modello multimodale abbiamo bisogno di dati di diverse tipologie accoppiati (ad esempio un’immagine con la relativa didascalia). Proprio il fatto di avere input di diverse modalità ma correlati tra loro rende la disponibilità di questo tipo di dati molto minore rispetto ai raw texts prima citati. La scarsità di questi dati in sostanza limita la possibilità di addestrare modelli multimodali, soprattutto all’aumentare della grandezza (numero di parametri) degli stessi.
- Rappresentazioni di input diversi: è ormai diventata consuetudine nel campo dell’Intelligenza Artificiale ricorrere ad approcci Deep Learning per svolgere i più svariati tasks. Le reti neurali sottostanti a queste tecniche vengono addestrate per creare delle rappresentazioni latenti degli input che ricevono, ovvero dei vettori (di dimensione dell’ordine delle centinaia in generale) in uno spazio euclideo che rendono l’input rappresentato interpretabile dalla rete neurale (rimandiamo a un articolo redatto dal team AI di Indigo.ai per approfondire l’argomento). Se nei modelli unimodali (capaci di processare una sola tipologia di input) questi vettori saranno associati a input dello stesso tipo (ad esempio parole), nei modelli multimodali ci troviamo davanti al problema di rappresentare diverse tipologie di input (ad esempio parole e immagini) in uno stesso spazio latente. Risolvere la criticità appena descritta non è banale e rappresenta una delle difficoltà da affrontare quando si vuole addestrare un modello multimodale.
I due punti evidenziati sopra rappresentano la principale ragione per cui sono stati pubblicati modelli multimodali efficaci solo negli ultimi anni.
Tassonomia degli approcci multimodali
Nell’ampio – seppur recente – panorama di modelli multimodali addestrati possiamo individuare alcune ‘famiglie’ nelle quali viene adottato un approccio comune al problema. Tra queste citiamo:
- I Dual Encoders (DE), ovvero i modelli che processano dati di tipologie diverse separatamente per mantenere al minimo l’interazione tra le diverse modalità. In questi approcci gli input di tipologie diverse vengono processati da parti specifiche della rete che non scambiano informazioni tra loro. L’interazione tra le modalità avviene a livello di rappresentazioni latenti finali: i vettori di una modalità scambiano informazioni con i vettori dell’altra modalità tramite semplici operazioni vettoriali (ad esempio il prodotto scalare). Questo tipo di approccio diventa utile nei task dove uno stesso dato viene utilizzato e/o interrogato più volte (ad esempio nei task di retrieval) e può essere quindi vettorializzato una singola volta. Di contro però, la scarsa interazione tra le diverse modalità limita le performance di questi modelli. Un esempio di dual encoder è rappresentato da CLIP, creato da OpenAI.
- I Fusion Encoders (FE), ovvero i modelli in cui l’interazione tra gli input di diverse tipologie avviene all’interno della rete. Con questi approcci quindi, a differenza dei DE, gli input di diverse tipologie scambiano informazione a livello più basso della rete, permettendo all’architettura di generare delle rappresentazioni latenti finali altamente informative e che aggregano il contenuto di diverse modalità. In questa famiglia possiamo individuare due sotto-categorie di approcci: FE Single Stream, che sfruttano l’interazione tra le diverse modalità (ad esempio tramite meccanismi di attenzione) già dal primo layer della rete, e FE Dual Stream che invece hanno sia delle parti della rete specifiche per una determinata tipologia di input (interazione intra-modale) e sia una parte di rete che processa l’output delle varie tipologie di dati per scambiare informazione tra le diverse modalità (interazione cross-modale). In generale, grazie all’interazione molto più marcata tra le diverse modalità di dati coinvolte, i Fusion Encoders raggiungono performance migliori rispetto ai Dual Encoders, a discapito però di un maggiore costo computazionale richiesto.
Applicazioni
La possibilità di poter processare input di modalità diverse con dei modelli AI apre le porte a dei task che pochi anni fa erano impensati. Vediamo quindi alcune delle applicazioni della tecnologia multimodale:
- Visual Question Answering: dati in input a un modello, una domanda e un’immagine inerente alla stessa, il task consiste nel fornire la risposta alla domanda utilizzando le informazioni contenute nell’immagine.

Modelli di Visual Question Answering vengono testati soprattutto in ambito medico per aiutare a determinare diagnosi a partire da immagini radiografiche. Soprattutto in questo contesto però la scarsità di dati di questa tipologia limita le performance dei modelli addestrati a questo scopo.

Tra i modelli che raggiungono ottimi risultati in task di Visual Question Answering citiamo OFA (pubblicato da DAMO Academy e Alibaba Group) e VLMo (pubblicato da Microsoft).
- Text-to-Image Generation: in questo task viene chiesto a un modello di generare un’immagine a partire dalla sua descrizione testuale. È forse il task nel campo dell’AI multimodale più ‘pop’, reso famoso da modelli come DALL-E 2 che si sono dimostrati capaci di generare immagini con un livello di dettaglio sorprendente. In particolare proprio quest’ultimo generatore di immagini pubblicato da OpenAI si è dimostrato efficace nel generare figure creative o controfattuali (ovvero immagini impossibili da osservare nella realtà, come un astronauta che cavalca nello spazio).

- Image Retrieval: dato un database di immagini e una query testuale, in questo task vogliamo determinare quali sono le immagini più pertinenti alla query ricevuta in input. Se, prima dell’avvento della tecnologia multimodale, questo task veniva svolto sfruttando ad esempio i metadati delle immagini (come ad esempio le didascalie), con modelli multimodali possiamo sfruttare direttamente le figure per determinare la coppia query-immagine più pertinente.
Sfide future
Essendo l’AI multimodale studiata da relativamente poco tempo, si può immaginare come le strade per migliorare questa tecnologia siano numerose e ricche di potenziale. Ad esempio, in questo articolo abbiamo parlato soprattutto di modelli multimodali capaci di processare dati di due sole tipologie (principalmente testo e immagini). In questo contesto un filone da esplorare sarà sicuramente quello di aumentare il numero di modalità processabili da un singolo modello.
Un’altra area che rimane inesplorata nel campo dell’AI multimodale è quella dello zero-shot learning: se da una parte in campo NLP i moderni Large Language Models hanno dimostrato capacità rimarcabili nello svolgere tasks senza utilizzare esempi specifici, dall’altra non si è ancora riusciti a ottenere qualcosa di simile con i modelli multimodali, soprattutto a causa delle difficoltà nell’addestrare modelli di questo tipo di grandi dimensioni. .
Infine, un filone di ricerca interessante sarà quello dei modelli multimodali multi-task, ovvero reti capaci di svolgere più di un task specifico con una sola architettura. In questo contesto, il precedentemente citato “OFA” è un esempio che dimostra come anche nel mondo multimodale è possibile addestrare modelli flessibili e capaci di svolgere più compiti specifici.
I modelli e gli approcci citati in questo articolo dimostrano come l’Intelligenza Artificiale multimodale abbia un enorme potenziale. Creare dei potenti modelli unificanti capaci di processare diverse tipologie di dati è sicuramente il prossimo passo nel mondo AI che porterà alla creazione di strumenti che possano generare un enorme valore per gli utenti che li utilizzano.