La Computer Vision è la capacità delle intelligenze artificiali di individuare, catalogare e interpretare le immagini. Lo studio su questo tipo di software è attivo dagli anni ‘50 ed è partito cercando di ricreare le capacità visive dei mammiferi nelle macchine.
Dapprima molto più semplice, oggi la machine vision è in grado di riconoscere anche le immagini in movimento e di catalogarle sulla base di determinate caratteristiche. Le sue potenzialità sono quindi enormi, ma pone anche alcuni limiti e problemi da risolvere.
Infatti, seppure estremamente utile (basti pensare alla guida autonoma di veicoli, che richiede strumenti dalle capacità visive sempre più sofisticate), questa branca dell’AI non è ancora al passo con quella delle intelligenze conversazionali.
Gli studi sui software di riconoscimento immagini
Alcuni software di intelligenza artificiale hanno un grandissimo potenziale in termini di visione artificiale, ma è stato dimostrato come la loro interpretazione delle immagini sia ancora molto limitata. A condurre uno studio del genere sono stati i ricercatori dell’Università del North Carolina.
Questi hanno chiesto a GPT-3, l’ultimo e attualmente il più sofisticato algoritmo di OpenAi e Microsoft, di riconoscere il colore di una pecora. Il risultato sorprendente è stato che l’intelligenza artificiale ha usato la parola “bianca” e la parola “nera” lo stesso numero di volte. Come mai? Perché semplicemente nelle istanze verbali la correlazione tra le parole “pecora” e “nera” sul web è tanto diffusa quanto quella tra “pecora” e “bianca”.
La ricerca ha quindi dimostrato come GPT-3 non sia veramente in grado di fare image recognition, ma basi la sua interpretazione su modelli linguistici che poco hanno a che fare con l’immagine effettiva. Quindi, è necessario pensare a un altro modo, a un altro livello di Computer Vision che permetta un riconoscimento delle immagini più accurato.
La prima possibilità è quella di usare didascalie più precise nella descrizione di foto e immagini sul web. Specificando azioni, preposizioni e aggettivi all’interno delle didascalie, il software di riconoscimento immagini sarà in grado di individuare non solo gli oggetti, ma anche la relazione tra essi. Quindi di raggiungere un livello più accurato di interpretazione dell’immagine.
Come si addestra un’AI alla Computer Vision?
La ricerca degli studiosi americani su un software di riconoscimento delle immagini non può prescindere dalla ricerca linguistica. Si tratta della differenza alla base tra machine vision vs. Computer Vision: la prima è più basica, si limita al riconoscimento delle immagini statiche. La seconda punta a integrare la “vista” del software con le altre sue funzioni, anche linguistiche e di comprensione del comportamento umano. Ciò permette l’interpretazione di immagini anche in 3D o in movimento.
Per rendere un’AI più precisa sulla Computer Vision è necessario tornare all’algoritmo precedente. La ricerca si è mossa all’indietro usando Google BERT, un modello di linguaggio decisamente meno sofisticato rispetto GPT-3. In questo modo, diminuendo la capacità di parole comprese e processate, l’interazione con le immagini è apparsa più semplice. Queste ricerche nel campo della Computer Vision hanno portato a quello che oggi si definisce “nuovo BERT”. Un’intelligenza artificiale in grado di svolgere compiti di image recognition più complessi. Il software è stato infatti sottoposto a sei diversi test di interpretazione dell’immagine superandoli brillantemente.
Ciò vuol dire che BERT supererà GPT-3? Non sembra una conclusione probabile. Piuttosto, la ricerca sulla Computer Vision ha sottolineato la necessità di adeguare anche le AI conversazionali più sofisticate all’interpretazione delle immagini per algoritmi di interazione e imitazione del linguaggio umano sempre più complessi.
Il futuro della Computer Vision
Ad oggi sono gli studiosi di Princeton a portare avanti le più sofisticate ricerche sull’image recognition. L’obiettivo è quello di “educare” le intelligenze artificiali a interpretare immagini in maniera complessa tenendo conto della prospettiva, del genere e dell’ubicazione geografica dei soggetti immortalati.
Una delle sfide dell’intelligenza artificiale è infatti quella di superare pregiudizi e stereotipi (che, ricordiamo, il software possiede solo in virtù del modo in cui è stato progettato). Affinché le AI non riflettano pregiudizi e discriminazioni degli esseri umani, vanno educati all’interpretazione dell’immagine.
Gli studiosi americani lo stanno facendo con il modello sperimentale REVISE (Revealing Visual Biases), con cui hanno dimostrato come i software di riconoscimento immagini siano influenzati dagli stereotipi. Per esempio, le immagini che comprendono le istanze “uomo” e “fiori” sono identificate come legate a cerimonie e premiazioni, mentre le immagini che legano “donna” e “fiori” sono catalogate nella categoria design e arte.
La sfida per chi si occupa di intelligenza artificiale come Indigo.ai deve essere quella di creare software di intelligenza artificiale privi di pregiudizi, in grado di dare una corretta interpretazione dei dati anche attraverso la Computer Vision.
Le applicazioni di questo campo della programmazione software sono numerose:
- sistemi di sorveglianza e sicurezza;
- apparati diagnostici;
- gestione di magazzini;
- manutenzione e sicurezza sul lavoro.
L’utilizzo di software di intelligenza artificiale dotati di una precisa e accurata capacità di riconoscimento delle immagini potrebbe cambiare il modo in cui vediamo il mondo, usando gli occhi di una macchina.
Scopri di più sulla piattaforma AI Indigo.ai.