L’AI è intorno a noi ovunque guardiamo: sia in aree che si avvicinano alla fantascienza (veicoli a guida automatica) a quelle più banali (che musica dovrei ascoltare su Spotify?). Come campo di studio, è costituita principalmente da tre pilastri fondamentali: l’algoritmo, la potenza del calcolatore automatico e i dati che raccoglie.
Oggi vogliamo parlare del ruolo fondamentale dell’ultimo pilastro: i dati.
Prima di poter prendere in considerazione l’affitto di server, l’installazione di librerie di apprendimento automatico open source e di assumere personale tecnico dedicato, è necessario disporre di dati.
Nell’era dei “big data”, è diventato comune pensare che basti un grande quantitativo di dati per permettere a modelli di AI / machine learning di ottenere performance sovra-umane in problemi quale classificazione, predizione e, nel caso di dati testuali, traduzione.
Ma purtroppo non è così.
La qualità e la profondità di essi determinano le potenzialità applicative che è possibile raggiungere con AI.
Oggi gli analisti si trovano in una situazione in cui la quantità di dati raccolti è spesso di pessima qualità. Prendiamo come esempio il campo della genetica clinica, in cui le fonti di dati utilizzate per analizzare la variazione della sequenza genetica sono così incoerenti che i sistemi di “database di database” sono stati costruiti per dare un senso ai set di dati. Un altro esempio sono le banche, che troppo spesso devono estrarre dati da almeno 15 diversi sistemi esterni.
In altre parole, senza una base sistematica per il prelievo e la scelta dei dati, qualsiasi variazione può essere fatale per l’efficacia di un sistema di AI.
More data beats clever algorithms, but better data beats more data.
Per capire meglio ciò che si intende per qualità, partiamo da un esempio pratico: costruire un modello di Machine Learning per predire la polarità di un testo (e quindi farne una Sentiment Analysis).
Un dato non pulito è ad esempio una frase in cui viene inserito un errore di spelling ad es:
“il mio caen è bellissimo” (polarità: positiva).
Questo errore banale e all’apparenza innocuo, può tuttavia avere conseguenze non indifferenti sulla qualità del modello. Un modello sufficientemente potente, in gergo tecnico, tenderà ad incorrere in overfitting; in questo caso vuol dire che il nostro modello creerà una regola logica tale per cui se appare la parola caen in una frase, quella frase sarà per forza di polarità positiva in quanto il 100% delle volte in cui ha visto caen (ossia una sola) la frase era positiva.
Questo significa che la frase “il caen del mio vicino ha morso un pedone” verrà classificata come positiva.
In maniera analoga, se in tutto il dataset compare una sola volta una parola come Marco, il modello creerà una regola logica associata a Marco.
Ciò vuol dire che il modello di intelligenza artificiale imparerà a creare “piccole regole ad-hoc” invece di imparare regole universali, capaci di generalizzare esempi non visti.
Partendo da questo ragionamento, le qualità che un buon dataset deve avere sono:
- poco rumore (e.g. testi sbagliati, labels erronee);
- grande varietà.
L’AI ha bisogno di dati puliti, attuali e ben governati.
I veri vincitori in questo campo saranno quelli che alla fine troveranno il modo di capitalizzare i dati su larga scala dalle reti a loro disponibili (integrando per esempio gli insights dei propri clienti).
Se l’intelligenza artificiale è una ricetta per aumentare l’efficienza in tutte le aree sociali, private e di business i buoni dati sono l’ingrediente chiave.