E’ chiaro come nell’era in cui viviamo la tecnologia abbia reso più semplice le nostre vite. Sono numerose oggi le applicazioni pratiche in cui gli strumenti tecnologici ci aiutano a risolvere i problemi di tutti i giorni e a semplificare il nostro lavoro. Il tool descritto in questo articolo, in particolare, fa vedere come l’utilizzo di modelli di linguaggio usati nel campo del Natural Language Processing (NLP) possono essere usati nel facilitare il processo di assunzione da parte delle aziende.
Oggi, queste ultime e in particolare quelle più grandi, quando aprono una nuova posizione lavorativa ricevono un numero molto grande di candidature (anche migliaia) in cui ogni candidato è “rappresentato” da un curriculum vitae (che può essere accompagnato da altre fonti testuali come una lettera motivazionale). Per ovvie ragioni di tempo ed effort umano, è impensabile poter visionare ogni singola candidatura ricevuta, per cui negli ultimi anni è diventato indispensabile riuscire ad automatizzare questo processo. Ciò è reso possibile grazie all’introduzione di tool di NLP sempre più sofisticati che sono in grado di analizzare i testi forniti dai candidati e assegnare a ciascuno di essi un punteggio che indica l’abilità per quella determinata posizione lavorativa; questo permette alle aziende di automatizzare il processo iniziale di scraping dei candidati, e poter visionare direttamente i profili migliori. Se da una parte le tecnologie sempre più sofisticate assicurano performance migliori, dall’altra la natura cosiddetta “black-box” di questi modelli, in cui non è ben chiaro come funziona l’algoritmo e soprattutto con quale criterio viene assegnato uno score a ciascun candidato, ha sollevato diverse preoccupazioni legate all’utilizzo di questi strumenti automatici: su tutte, la pericolosità che questi modelli hanno nel discriminare in base al genere del candidato. Per questo motivo Amazon è finita nel mirino delle critiche nel 2018 per via del suo strumento automatico di screening, accusato di essere “gender-biased” nell’assegnare uno score ai candidati; nello specifico, l’accusa sostiene che il modello abbia visto durante l’addestramento per lo più profili maschili, e abbia imparato ad assegnare un punteggio più alto ai CV maschili.
Viene sostenuto, inoltre, che anche se le informazioni sul genere del candidato non siano esplicitamente incluse, il modello impara comunque a capirlo. Come? E’ stato provato tramite studi scientifici che i CV dei candidati potrebbero contenere molta informazione, che magari non fa direttamente riferimento al genere, ma che permette ai modelli di predire questa informazione. Uno studio di ricerca condotto dalla New York University ha provato a comprendere, analizzando una vasta quantità di curricula nel campo IT, quanto un modello di intelligenza artificiale sia in grado di capire il genere del candidato partendo dal testo del CV. Per fare ciò, hanno addestrato una serie di modelli predittivi per classificare il genere del candidato (in questo studio, maschile o femminile), e misurare quindi quanta informazione legata al genere è contenuta nei CV. L’addestramento dei modelli è stato fatto con circa 348K profili: 174K per gli uomini, 174K per le donne. Inoltre, i dati sono stati scelti in modo che ogni curriculum maschile sia accoppiato ad un corrispettivo femminile il più simile possibile in termini di background tecnico ed esperienza lavorativa. In questo modo si vuole scongiurare l’ipotesi che il bias sia legato ad uno sbilanciamento dei dati utilizzati in fase di training, non soltanto a livello numerico, ma anche qualitativo dei dati.
Dal punto di vista modellistico, si tratta di un task di classificazione binaria in cui sono stati testati tre diversi set di modelli:
- Tf-Idf+Logistic
- Word Embeddings+Logistic
- Longformer
Con il primo si studia quanto il modello discrimina sul genere dei candidati basandosi solo su differenze lessicali. Con il secondo si dà peso anche al significato semantico delle parole utilizzate, fino al terzo approccio in cui si arriva a basarsi su feature sempre più sofisticate, come ad esempio la struttura del documento.
Un’ulteriore analisi è stata fatta rimuovendo dai testi tutte quelle informazioni (come nome, indirizzo mail, contatto LinkedIn, ma anche aggettivi o sostantivi di genere non neutro) che possono facilmente ricondurre al genere del candidato, e ripetendo gli esperimenti per capire se i modelli di intelligenza artificiale, specie quelli più sofisticati, sono in grado di capire il genere anche se questo non è esplicitato. I risultati sono stati valutati usando come metrica l’AUROC (Area Under the Receiver Operating Characteristic), che indica quanta informazione sulla risposta (in questo caso il genere del candidato) è contenuta nei testi. Più l’AUROC si avvicina a 1, più il modello riesce a capire facilmente se il testo si riferisce ad un uomo o una donna. Viceversa, se l’AUROC ha valori più bassi (vicino a 0.5), vuol dire che l’informazione contenuta non è sufficiente per il modello a capire il genere del candidato, e quindi non si ha evidenza per affermare che tali modelli sono effettivamente gender-biased. Sfortunatamente, si nota che anche un semplice modello come il Tf-Idf riesce a discriminare facilmente sul genere (AUROC=0.88), il che ci dice che all’interno dei CV c’è una quantità significativa di informazioni legate al genere, e anche andando a rimuovere quelle più esplicite (come descritto in precedenza), i valori dell’AUROC si abbassano, ma non abbastanza (0.75 con Tf-Idf, 0.80 con Longformer). Questo valida, quindi, l’ipotesi del gender-bias che si propaga in questi modelli, e che potrebbe andare ad influire sugli algoritmi di scraping automatico che vengono usati oggigiorno.
Fatta tesoro di questa analisi, la provocazione che si vuole lanciare in questo articolo è la seguente: è giusto che si provi ad impedire ad un modello AI che ha visto un curriculum di capire il genere di un candidato, in un’era in cui si cerca di creare modelli che si avvicinano sempre più all’Artificial General Intelligence, e quindi ad assomigliare sempre più all’uomo? Oppure bisogna chiedersi perché, una volta che il modello capisce il genere del candidato, questo dovrebbe andare ad assegnare uno score maggiore ad un candidato maschile? La risposta a questa domanda è da ricercare in quel filone di ricerca che mira ad eliminare il bias nei modelli e ad avere tecnologie sempre più imparziali e libere da pregiudizi. Probabilmente la strada è ancora lunga, ma la direzione intrapresa lascia ben sperare.