Cerca nel blog

2022/04/07

Quando l’intelligenza artificiale bara: l’aneddoto degli husky scambiati per lupi

Una delle sfide nell’uso delle straordinarie possibilità dell’intelligenza artificiale è molto, molto... umana: le persone che sviluppano questi sistemi devono abituarsi a ragionare in maniera non umana e a capire e prevedere gli sbagli del loro software.

C’è un caso molto famoso in questo campo che viene spesso citato come aneddoto: si racconta che alcuni anni fa un gruppo di ricercatori creò un sistema di intelligenza artificiale per distinguere i lupi dai cani husky, dandogli in pasto immagini di lupi e di husky e dicendogli quali erano lupi e quali erano husky. Un metodo molto simile a quello che si usa per insegnare a una persona a riconoscere qualunque oggetto.

Nell’aneddoto, il sistema funzionava benissimo: aveva un tasso di successo molto elevato quando gli venivano proposte immagini che non aveva mai visto prima. Ma a un certo punto aveva iniziato a commettere una serie di errori madornali. I ricercatori, si racconta, scoprirono poi che il sistema non stava in realtà riconoscendo lupi o cani, ma stava discriminando le immagini in base alla presenza o assenza di neve. Infatti tutte le immagini di lupi che erano state usate per addestrare l’intelligenza artificiale avevano uno sfondo innevato e quelle degli husky no, e i ricercatori non ci avevano fatto caso.

---

L’aneddoto è divertente; illustra bene un problema frequente dei ricercatori di intelligenza artificiale, ossia la tendenza a fare una selezione errata dei campioni usati per l’addestramento del software, ma in realtà racconta i fatti in modo sbagliato.

Prima di tutto, la ricerca fu effettivamente realizzata (è descritta in un articolo scientifico del 2016, disponibile qui su Arxiv.org) e diede davvero quei risultati, ma l’intelligenza artificiale fu creata appositamente difettosa (“We trained this bad classifier intentionally”) per dimostrare l’importanza di usare immagini campione ben selezionate e mettere in chiaro il pericolo delle cosiddette correlazioni spurie e dell’eccessiva fiducia che si rischia di dare a sistemi addestrati maldestramente.

Le correlazioni spurie sono quelle che un essere umano non farebbe mai, perché sa cos’è un husky e cos’è un lupo in base alla propria conoscenza degli animali e della realtà in generale, ma che un’intelligenza artificiale rischia di fare perché si basa esclusivamente sulle immagini che le sono state date, senza alcuna conoscenza della realtà: dove noi vediamo husky o lupo, l’intelligenza artificiale vede macchie di pixel che si somigliano oppure no.

L’aspetto più interessante di questo aneddoto è un altro elemento che manca nella sua narrazione abituale: i risultati dell’intelligenza artificiale furono presentati a un gruppo di studenti laureati del settore, mostrando loro otto riconoscimenti corretti e uno sbagliato, nel quale l’intelligenza artificiale aveva identificato come lupo quello che in realtà era un husky.

Agli studenti fu chiesto se ritenessero affidabile un software che azzeccava otto volte su nove, perché lo ritenessero affidabile, e quale fosse secondo loro il criterio usato dal software per distinguere lupi e husky.

Solo in seguito fu spiegato loro il criterio effettivamente utilizzato dall’intelligenza artificiale, ossia la presenza o assenza di bianco nella parte inferiore dell’immagine.


Prima di conoscere il criterio, oltre un terzo degli studenti aveva dichiarato di fidarsi del software e meno della metà aveva citato la presenza di neve come possibile elemento discriminante spurio usato per errore dall’intelligenza artificiale. Una volta conosciuto il criterio effettivo, la loro fiducia era calata notevolmente.

Gli studenti avevano insomma dato fiducia a quest’intelligenza artificiale basandosi puramente sulle sue statistiche di successo, ragionando che se funziona otto volte su nove vuol dire che funziona bene, fine del problema. Se questo errore capita a degli esperti del settore, immaginatevi quanto possa capitare a chi non è esperto.

Proprio in questi giorni sulla prestigiosa rivista medica The Lancet è stato pubblicato un articolo (segnalato da Eric Topol) che racconta un incidente analogo capitato in un settore ben più delicato: quello della salute. Un modello di intelligenza artificiale concepito per riconoscere fratture femorali nelle radiografie dei pazienti aveva prodotto risultati praticamente perfetti, superiori a quelli dei radiologi in carne e ossa, ma a un certo punto aveva manifestato “comportamenti algoritmici inattesi e potenzialmente dannosi” (“unexpected and potentially harmful algorithmic behaviour”). Che è un eufemismo per dire che prendeva delle cantonate spettacolari che avrebbero potuto rovinare i pazienti.

L’articolo di Lancet non nega il potenziale di queste tecnologie, ma mette in luce le necessità di esaminare con attenzione il modo in cui funzionano prima di introdurle nella pratica clinica, per evitare che ci si basi su criteri che sono robusti e sensati soltanto in apparenza. “Storicamente”, dicono gli autori dell’articolo, “i sistemi di diagnosi assistita da computer hanno spesso fornito prestazioni inaspettatamente scadenti in contesto clinico nonostante valutazioni precliniche promettenti”.

Per fortuna c’è, secondo loro, una soluzione: obbligare chi offre questi sistemi a spiegare come funzionano realmente e a sottoporli a verifiche da parte di esperti di intelligenza artificiale, secondo una tecnica denominata algorithmic auditing

Insomma, sembra proprio che l’intelligenza artificiale ci possa dare una mano, a patto di addestrarla bene, e sembra anche scongiurato un altro pericolo che viene spesso citato: quello che l’intelligenza artificiale causi disoccupazione. Per fare questo algorithmic auditing serviranno infatti persone esperte sia in campo informatico sia nel campo nel quale si vogliono applicare questi sistemi, e serviranno anche decisori che sappiano che non ci si può semplicemente fidare di un numeretto che indica una percentuale di successo ma occorre piena trasparenza. 

Nascono quindi nuovi mestieri che si affiancano a quelli tradizionali. Sperando che chi li farà non venga selezionato da un software che li sceglie in base a qualche correlazione spuria o campione distorto, come è accaduto ad Amazon. Nel 2018 l’azienda di Jeff Bezos ha dovuto rinunciare a un sistema automatico di selezione dei candidati quando è emerso (dice Reuters) che discriminava le donne. Il software, infatti, era stato addestrato usando i curricula inviati ad Amazon nei dieci anni precedenti, e la maggior parte di quei curricula era maschile, per cui il sistema di machine learning aveva dedotto (si fa per dire) che i candidati maschili erano da preferire a quelli femminili.

Nessun commento: