Cerca nel blog

2014/06/09

No, un “supercomputer” non ha superato il Test di Turing

Questo articolo vi arriva grazie alla gentile donazione di “sergio.tom*” e “dabogirl” ed è stato aggiornato dopo la pubblicazione iniziale.

Impazza ovunque la notizia che un computer, anzi un “supercomputer”, come titola Il Sole 24 Ore, avrebbe superato il mitico Test di Turing, dimostrando quindi di essere dotato d'intelligenza. È una balla spacciata da un ricercatore, Kevin Warwick, già noto per le sue dichiarazioni roboanti e del tutto prive di fondamento scientifico. Il test non è stato affatto superato, nonostante Warwick ne abbia alterato le regole a proprio favore.

Prima di tutto, facciamo un ripassino veloce di cos'è il Test di Turing. Non ne esiste una definizione univoca, ma il matematico Alan Turing nel 1950 scrisse un celebre articolo, Computing Machinery and Intelligence, in cui proponeva un “gioco dell'imitazione” che è stato usato come ispirazione per il test: un esaminatore conversa liberamente via chat (allora si pensava a una telescrivente) con un computer e con un essere umano. Se non riesce a distinguere quale dei due è il computer e quale è l'essere umano, allora si può concludere – argomentava Turing – che il computer “pensa” o perlomeno è in grado di imitare perfettamente il pensiero umano e quindi è intelligente quanto un essere umano. Il test ha molti limiti, dovuti anche all'età: all'epoca l'intelligenza artificiale era un campo inesplorato.

Quello che è successo invece alla Royal Society di Londra, secondo il comunicato stampa dell'Università di Reading, è che il computer (o meglio, un software denominato “Eugene Goostman”) è riuscito a convincere soltanto il 33% degli esaminatori che era un essere umano. Uno su tre. Cito: “Eugene managed to convince 33% of the human judges that it was human.” L'altro 67% non s'è fatto fregare. Questo, a casa mia, non si chiama “superare” un test.

Non solo: secondo il comunicato stampa, il test di Turing prevederebbe che “se un computer viene scambiato per un essere umano più del 30% del tempo durante una serie di conversazioni via tastiera di cinque minuti, allora supera il test” (“If a computer is mistaken for a human more than 30% of the time during a series of five minute keyboard conversations it passes the test”). Falso: Turing non ha mai scritto una percentuale del genere come criterio di superamento. Ha invece scritto che il test viene superato se l'esaminatore sbaglia con la stessa frequenza sia quando deve distinguere fra un uomo e una donna, sia quando deve distinguere fra un essere umano e un computer (“We now ask the question, "What will happen when a machine takes the part of A in this game?" Will the interrogator decide wrongly as often when the game is played like this as he does when the game is played between a man and a woman? These questions replace our original, "Can machines think?"”).

L'unica cosa che si avvicina a quanto asserito dal comunicato stampa è una previsione di Turing, sempre in Computing Machinery and Intelligence, che entro il 2000 sarebbe stato possibile programmare un computer in modo che “un esaminatore medio non avrebbe avuto più del 70% di probabilità di fare un'identificazione corretta dopo cinque minuti di domande” (“I believe that in about fifty years' time it will be possible, to programme computers [...] to make them play the imitation game so well that an average interrogator will not have more than 70 per cent chance of making the right identification after five minutes of questioning”). Ma non è una descrizione del criterio di superamento del test: è, appunto, soltanto una previsione che fra cinquant'anni l'informatica sarà arrivata a questo livello. Tutto qui.

In altre parole, il test annunciato sui giornali non corrisponde affatto ai criteri originali enunciati da Turing, che non ponevano limiti di tempo, di argomento o di competenza all'esaminatore. Invece in questo evento:
– l'interrogatorio è stato limitato a sessioni di cinque minuti (forse ripetute);
– non tutti i giudici (che erano forse trenta o cinque in tutto; c'è una confusione sorprendente anche su cose semplici come questa) erano esperti nel valutare software d'intelligenza artificiale: i nomi finora resi noti sono quelli di Robert Llewellyn (attore noto come il robot Kryten di Red Dwarf), Aaron Sloman (professore d'informatica presso la University of Birmingham) e Lord Sharkey (che non sembra avere qualifiche nel settore dell'AI, anche se la BBC lo definisce “esperto” in questo campo);
– è stato detto ai giudici che dovevano decidere se stavano comunicando con un computer che simulava un bambino di tredici anni oppure con un vero tredicenne; ma la scelta di un adolescente equivale a barare, perché impedisce ai giudici di fare domande complesse di cultura o di etica e quindi semplifica molto il compito di imitare un essere umano;
– è stato inoltre comunicato ai giudici che “Eugene Goostman” non parlava bene l'inglese perché era ucraino: un trucco che permetteva di dare una spiegazione credibile alle sgrammaticature del software, incapace di formare frasi idiomatiche.

Infatti Time ha pubblicato una trascrizione di un dialogo con il software che avrebbe “superato” il Test di Turing: basta leggerla per notare che il programma non fa altro che produrre frasi preconfezionate, sviando le domande dell'intervistatore. Quando il software non trova nulla di utile nella domanda, risponde “Preferisco non parlare di questo”. Così son capaci tutti: questa non è intelligenza, è pura elaborazione meccanica. In pratica “Eugene Goostman” è un chatbot e nulla di più. Ne potete provare una versione qui (se il sito non è sovraccarico).

Il Guardian ha pubblicato una foto di uno spezzone di conversazione con “Eugene”: valutatene voi la credibilità. Notate che in due occasioni il software si limita a prendere la frase dell'interlocutore e ripresentarla sotto forma di domanda e per due volte risponde cambiando argomento.

ESAMINATORE: Hello

EUGENE: Hello, how are you?

ESAM: I am fine, you?

EUG: I am pleased you are fine.

ESAM: and you?

EUG: I do not want to answer that right now.

ESAM: Why not?

EUG: Lets talk about something else.

ESAM:  Ok what?

EUG: What is on your mind?

ESAM: I am wondering if you are a robot.

EUG: Would if be a problem if I was a robot?

ESAM: Not really.

La contraddizione tra le affermazioni del comunicato stampa e la realtà dei fatti è resa particolarmente palese da questo articolo della BBC, nel quale gli organizzatori sottolineano che “le conversazioni non avevano restrizioni” (“crucially, the conversations were unrestricted”) e subito dopo dichiarano che simulare un tredicenne ucraino limitava astutamente la conversazione (“It was very clever ruse to pretend to be a 13-year-old Ukranian boy, which would constrain the conversation”). Decidetevi.

Non è finita: anche l'affermazione che “nessun computer è mai riuscito a ottenere questo risultato finora” (“No computer has ever achieved this, until now”) è falsa. Già tre anni fa il chatbot Cleverbot aveva convinto il 59% degli esaminatori che era un essere umano. Ben più del 33% di “Eugene”.

Il professor Warwick, inoltre, è già in sé una garanzia di bufala. Anni fa aveva annunciato di essere il primo cyborg perché s'era impiantato un chip in un braccio (se così fosse, tutti i cani e gatti con microchip sottocutaneo d'identificazione sarebbero dei cyborg). Poi aveva fatto la sparata di annunciare il primo essere umano infettato da un virus informatico: in realtà aveva semplicemente preso un chip contenente un virus informatico e l'aveva inserito nel braccio di un collega. Ne ha dette talmente tante che The Register ha una compilation delle stupidaggini sensazionaliste annunciate da Warwick.

Una cialtronata in piena regola, insomma, che è indegna della Royal Society e cavalca il sessantesimo anniversario della morte di Turing, causando soltanto confusione nell'opinione pubblica. Non c'è nessuna intelligenza artificiale in arrivo: continueremo a essere circondati dalla stupidità naturale e dall'ingenuità dei giornalisti che scrivono di cose che non sanno e pubblicano qualunque cosa senza verificarla. E questo “test” dimostra semmai che se basta così poco per imitare un tredicenne, allora i tredicenni non sono esseri pensanti. Ho qualche dubbio in proposito anche su molti giornalisti.

Fonti aggiuntive: Techdirt, Ars Technica.

Nessun commento: