È disponibile subito il podcast di oggi de
Il Disinformatico
della Radiotelevisione Svizzera, scritto, montato e condotto dal sottoscritto:
lo trovate
qui sul sito della RSI
(si apre in una finestra/scheda separata) e lo potete scaricare
qui.
Le puntate del Disinformatico sono ascoltabili anche tramite
iTunes,
Google Podcasts,
Spotify
e
feed RSS.
---
CLIP: “Hai mai messo in dubbio la natura della tua realtà?” dalla serie TV
Westworld]
Riprendo questa frase emblematica, tratta dalla serie televisiva di
fantascienza Westworld, a distanza di poco meno di un anno da quando
l’ho
citata per la prima volta
in questo podcast. Era la fine di marzo 2023 e stavo raccontando la novità
dell’arrivo dei primi generatori di immagini tramite intelligenza artificiale
capaci di produrre immagini praticamente indistinguibili dalle foto reali, che
erano un salto di qualità tecnica enorme rispetto alle immagini da fumetto o
da videogioco di prima.
Undici mesi dopo, dalle immagini sintetiche fotorealistiche, che erano già uno
shock non solo tecnologico ma anche e soprattutto culturale, siamo già
arrivati ai video realistici generati dai computer e indistinguibili dai video
reali.
OpenAi ha infatti presentato Sora, un
software di intelligenza artificiale capace di generare video fotorealistici,
in alta definizione, lunghi fino a un minuto. E qualcuno già parla di collasso
della realtà mediatica [Ars Technica], perché se non possiamo più credere alle foto e nemmeno ai video, che
sembravano impossibili da falsificare, e se possiamo generare qualunque
ripresa video semplicemente descrivendola a parole, la fiducia già traballante
nei mezzi di comunicazione finisce a pezzi, travolta da fiumi di video falsi a
supporto dell’ondata di fake news, e tutta una serie di mestieri rischia di
diventare inutile. A cosa servono fotografi, operatori di telecamere,
scenografi, attrezzisti e gli stessi attori se chiunque, con un computer di
media potenza, può ricreare qualunque scenografia e qualunque volto in
qualunque situazione?
Benvenuti alla puntata del 23 febbraio 2024 del Disinformatico, il
podcast della Radiotelevisione Svizzera dedicato alle notizie e alle storie
strane dell’informatica. Io sono Paolo Attivissimo.
[SIGLA di apertura]
Il 15 febbraio scorso OpenAI, la società che sta dietro ChatGPT e molti altri
prodotti di enorme successo basati sull’intelligenza artificiale, ha
annunciato il suo nuovo software Sora con una serie di video che hanno
comprensibilmente lasciato moltissimi a bocca aperta e con quel brivido di
fascino e disorientamento che si prova quando ci si rende conto di essere di
fronte a un cambiamento epocale, a qualcosa che non trasforma solo la
tecnologia ma rischia di trasformare l’intera società.
Se non avete ancora visto questi video di Sora, guardateli: li trovate presso
Openai.com/sora. Sono effettivamente impressionanti. Per esempio, in uno di questi video una
donna elegantemente vestita passeggia di notte per le vie di Tokyo,
sull’asfalto bagnato che riflette perfettamente la scena, e anche nei suoi
occhiali c’è il riflesso dell’ambiente. Una sequenza che avrebbe richiesto
trasferte, permessi di ripresa, addetti alle luci, costumisti, truccatori, e
ovviamente una modella o un’attrice, si genera oggi interamente al computer,
semplicemente dicendo la seguente frase in inglese:
“Una donna elegante cammina lungo una via di Tokyo piena di insegne al neon
animate con colori caldi. Indossa una giacca di pelle nera, un vestito rosso
lungo e stivali neri, e porta una borsetta nera, occhiali da sole e rossetto
rosso. Cammina con aria sicura di sé e con disinvoltura. La strada è bagnata
e riflettente, creando un effetto specchio sulle luci colorate. Circolano
numerosi pedoni”*
* In originale:
A stylish woman walks down a Tokyo street filled with warm glowing neon
and animated city signage. She wears a black leather jacket, a long red
dress, and black boots, and carries a black purse. She wears sunglasses
and red lipstick. She walks confidently and casually. The street is damp
and reflective, creating a mirror effect of the colorful lights. Many
pedestrians walk about.
Chiunque lavori nel mondo dei media sta probabilmente avendo una crisi di
panico all’idea di essere sostituito di colpo da una macchina, a
tariffe e con velocità di realizzazione con le quali non può assolutamente
competere. E non sostituito fra qualche anno, come sembravano indicare i
primi, timidi esperimenti di video sintetici di undici mesi fa, ma
subito, quando non ci si è ancora ripresi dallo sconquasso delle
immagini sintetiche che hanno eliminato il lavoro di tanti fotografi, anche se
Sora non è ancora pubblicamente disponibile come lo è invece ChatGPT e lo
stanno provando solo alcuni artisti visivi e realizzatori di film.
Che la rivoluzione dei video sintetici fosse nell’aria e sarebbe arrivata
prima o poi era chiaro a tutti; che sarebbe arrivata così in fretta
probabilmente se lo aspettavano in pochi. Ma è successo.
O almeno così sembra dai commenti di molti addetti ai lavori e del pubblico a
questo annuncio di OpenAI. Ma se proviamo a scremare il sensazionalismo dei
primi e le paure dei secondi viene a galla una situazione piuttosto
differente. Forse ce la possiamo cavare con un panico controllato.
La valle inquietante
Una delle prime cose che si notano in questi video dimostrativi, una volta
superato lo shock iniziale, è che manca l’audio, che a quanto pare Sora non è
ancora in grado di generare sincronizzandolo con le immagini. Ma l’audio si
può sempre generare in seguito, usando tecniche tradizionali, come il
doppiaggio o il foley, il lavoro dei rumoristi.
L’altra particolarità di questi video sintetici di OpenAI è la fluidità dei
movimenti delle persone e degli animali, che risulta leggermente dissonante
rispetto alla realtà. In altri di questi video dimostrativi, un gatto e un
cane corrono e saltano, ma c'è qualcosa che non va nei loro movimenti:
sono quasi perfetti, ma è un quasi
che rompe completamente l’illusione.
Il nostro cervello ha milioni di anni di esperienza e di evoluzione su cui
contare per il riconoscimento dei movimenti delle persone e degli animali
familiari, e per ora i video sintetici, a differenza delle foto sintetiche,
sono nel pieno della cosiddetta
uncanny valley
o valle inquietante, ossia quella teoria, proposta dal professore di
robotica Masahiro Mori ben 54 anni fa, nel 1970, secondo la quale un oggetto
animato produce una risposta emotiva favorevole se non somiglia affatto a un
essere umano o a un animale reale oppure se è assolutamente identico a quello
reale, ma produce invece repulsione, inquietudine e rifiuto se è molto simile
ma non identico all’originale. Quella zona di quasi-somiglianza è la Valle
Inquietante, situata fra i due pianori della credibilità.
I personaggi digitali di Toy Story, per esempio, funzionano
emotivamente perché non hanno la pretesa di essere persone reali: sono
giocattoli e quindi i loro movimenti possono essere innaturali e anche
caricaturali senza causare disagio o disorientamento. Gli animali sintetici
fantastici di Avatar e di altri film risultano credibili perché non
abbiamo alcun termine di paragone con la realtà. Invece gli animali
fotorealistici del remake del Re Leone o della Sirenetta, o
anche l’Indiana Jones ringiovanito del Quadrante del Destino, per
quanto siano il frutto di immense fatiche di tecnici e animatori, spesso
stentano a convincerci: basta un minimo movimento innaturale per spezzare la
magia, l’empatia e l’immedesimazione.
La terza anomalia di questi video di OpenAI emerge soltanto se si ha l’occhio
estremamente allenato e ci si sofferma sui dettagli: alcune persone sullo
sfondo appaiono dal nulla e poi svaniscono, e la donna che cammina per le vie
di Tokyo a un certo punto inverte le proprie gambe. Tutte cose che al
primo colpo d’occhio non verranno notate da nessuno, specialmente se la
scena fa parte di una sequenza che ha un montaggio molto dinamico, ma
sono cose che rendono questi video inadatti a un uso per un film o un telefilm
di qualità.
Il quarto aspetto insolito di Sora è la sua fisica, ossia il modo in cui gli
oggetti si comportano. Uno dei video rilasciati da OpenAI mostra un bicchiere
appoggiato su un tavolo. Di colpo il liquido rosso contenuto nel bicchiere
attraversa il vetro del bicchiere e si spande sul tavolo, senza motivo,
mentre il bicchiere fa un salto altrettanto senza motivo, si inclina e poi
ricade sul tavolo flettendosi, cosa che un bicchiere di vetro non
farebbe mai.
Da questo e altri esempi risulta chiaro che Sora non permette ancora di
sostituire in tutto e per tutto il lavoro manuale delle persone, ma produce
già ora risultati sufficienti per le riprese generiche. Martin Scorsese o
Christopher Nolan non hanno motivo di preoccuparsi, perché realizzano prodotti
finemente cesellati, ma Sora mette invece a repentaglio tutto il mondo delle
riprese stock, ossia degli spezzoni generici che vengono realizzati e
venduti per esempio per creare i video industriali o promozionali o le
panoramiche e le riprese ambientali nei telefilm.
Nicchie e autenticità
Se lavorate in questi settori, insomma, conviene che impariate in fretta come
funzionano questi software e li adottiate, perché o ci si adatta o si perisce.
Oppure si trasforma il proprio mestiere, trovando una nicchia specialistica
che il software non riesce a coprire.
E questa nicchia c’è: anche se OpenAI sottolinea orgogliosamente, nel
documento tecnico
che ha rilasciato insieme ai video, che Sora migliora semplicemente
aggiungendovi potenza di calcolo e che quindi certe limitazioni di oggi
potrebbero svanire domani, chi si occupa già di immagini sintetiche fisse sa
che è relativamente facile ottenere un’immagine che somiglia
grosso modo a quella desiderata, ma convincere un’intelligenza
artificiale a creare
esattamente
un’immagine che avevamo in mente è difficilissimo, e questo sembra essere un
limite intrinseco del suo modo di generare immagini, che non dipende dalla
potenza di calcolo e non è rimediabile semplicemente spendendo altri
gigadollari in hardware.
L’intelligenza artificiale, insomma, sta trasformando anche questo settore
lavorativo, come ha già fatto per tanti altri, dalla scrittura alla traduzione
alla musica alla grafica, ma in questo caso specifico ha anche un effetto
molto più perturbante a livello sociale.
Se già adesso Midjourney o Stable Diffusion stanno mettendo in crisi
l’informazione permettendo di produrre immagini sintetiche che vengono
spacciate per vere, alimentando la propaganda, le truffe e la produzione di
fake news a basso costo, possiamo solo immaginare cosa succederà quando anche
i video che vengono pubblicati online dovranno essere considerati
inattendibili perché potrebbero essere stati generati dall’intelligenza
artificiale. Non potremo più credere a niente di quello che vediamo sullo
schermo e dovremo diffidare di tutto, con il rischio di sprofondare
nell’apatia.
Fra l’altro, questo vuol dire non solo fake news, ma anche per esempio che i
sistemi di riconoscimento facciale usati da molti servizi e da molte banche
online o dai sistemi di controllo degli accessi potranno essere beffati e in
alcuni casi lo sono già.
Ma in realtà c’è già una soluzione a questo rischio: il primo passo è definire
delle autorità di certificazione dell’autenticità dei video. Se un video viene
depositato presso uno o più enti indipendenti, che ne garantiscano l’integrità
attraverso strumenti matematici appositi, che esistono già e vengono già
applicati in altri settori, come quello giudiziario per esempio per garantire
l’integrità delle registrazioni audio e video degli interrogatori, allora si
può stare tranquilli che quel video è reale.
Inoltre si può sempre ricorrere alla catena delle garanzie: se un video viene
pubblicato da una testata giornalistica affidabile ed è stato girato da un
reporter affidabile, allora ci si può ragionevolmente fidare. Mai come oggi,
insomma, il giornalismo può avere un ruolo chiave nell’arginare lo tsunami
delle fake news.
Ma per avere questo ruolo è indispensabile imporre standard di verifica nelle
redazioni che oggi, purtroppo, spesso scarseggiano. Si prende a volte la prima
immagine trovata su Internet chissà dove e la si sbatte in prima pagina; si
spacciano spezzoni di videogiochi per scene dai fronti di guerra; e cosi via.
Non è solo un problema redazionale del giornalismo: le immagini sintetiche
vengono pubblicate senza controllo anche da riviste scientifiche
irresponsabili. Un caso recentissimo e particolarmente memorabile ci è stato
regalato dalla rivista Frontiers in Cell and Developmental Biology, che
ha pubblicato in un suo
articolo
una illustrazione scientifica dei genitali di un ratto vistosissimamente
generata dall’intelligenza artificiale. Lo si capiva dalle didascalie, che
erano parole senza senso, e lo si capiva soprattutto dalle dimensioni
colossalmente impossibili dei testicoli del superdotato roditore.
Nessuno ha controllato, né i ricercatori autori dell’articolo né i
redattori, e così l’articolo scientifico è stato pubblicato con l’immagine
sintetica. La rivista ha così perso ogni credibilità perché è stata colta
clamorosamente in fallo.
Se vogliamo sfruttare i benefici dell’intelligenza artificiale senza farci
travolgere dai rischi, non ci servono mirabolanti tecnologie o gadget
salvifici per rivelare quando un’immagine o un video sono sintetici, come
chiedono in molti. Ci basta creare una filiera di autenticazione e controllo,
gestita da esseri umani competenti, con procedure redazionali rigorose, e
abituarci all’idea che d’ora in poi tutto quello che vediamo muoversi sullo
schermo rischia di essere falso se non è stato verificato da questa filiera.
In altre parole, ci basta cambiare metodo di lavoro, e questa è una decisione
che non dipende né dalla potenza di calcolo né dalla tecnologia, ma dipende
dalla nostra volontà. Il modo in cui reagiremo alla sfida dell’intelligenza
artificiale sarà un perfetto indicatore della nostra intelligenza naturale.
Fonte aggiuntiva: Mashable.