È disponibile subito il podcast di oggi de Il Disinformatico della Radiotelevisione Svizzera, scritto, montato e condotto dal sottoscritto: lo trovate presso www.rsi.ch/ildisinformatico (link diretto) e qui sotto.
Le puntate del Disinformatico sono ascoltabili anche tramite feed RSS, iTunes, Google Podcasts e Spotify.
Buon ascolto, e se vi interessano il testo di accompagnamento e i link alle fonti di questa puntata, sono qui sotto.
---
[CLIP: Dialogo fra Ann e il suo partner]
Quella che avete sentito non è la classica conversazione fra un utente e il suo assistente vocale. La voce femminile che risponde non è quella standard di Alexa, Siri o Google: è quella, sintetica, di Ann, una donna che ha perso la capacità di parlare in seguito a un ictus ma che ora può di nuovo comunicare a voce semplicemente pensando di parlare, grazie a una rete di sensori applicati al suo cervello e grazie all’intelligenza artificiale, che è l’unica tecnologia capace di interpretare la complessa attività dei neuroni e tradurla in suoni usando oltretutto la voce originale della persona.
È una delle tre storie di intelligenza artificiale che dà voce a chi non ce l’ha della puntata del primo settembre 2023 del Disinformatico, il podcast della Radiotelevisione Svizzera dedicato alle notizie e alle storie strane dell’informatica. Le altre due riguardano l’idea di usare l’intelligenza artificiale per decodificare il linguaggio degli animali e uno strano esperimento di collage acustico in cui la voce di Elvis Presley, morto nel 1977, canta le parole di Baby Got Back di Sir Mix-A-Lot, classe 1992, sulle note di Don’t Be Cruel, classe 1956. Lasciamo stare un momento il perché di una creazione del genere, perché è molto più importante il come, che potrebbe decidere le sorti di tutto il mondo musicale nei prossimi anni.
Benvenuti. Io sono Paolo Attivissimo.
[SIGLA di apertura]
L’IA che ridà la voce captando le parole pensate
Restituire la voce a chi l’ha persa per malattia è ora possibile, perlomeno in alcuni casi specifici. Lo annunciano, con molta dovuta cautela, due articoli scientifici (A high-performance speech neuroprosthesis; A high-performance neuroprosthesis for speech decoding and avatar control) pubblicati sulla prestigiosa rivista Nature, che raccontano le storie di Ann e Pat, due donne che avevano perso la capacità di parlare a causa della scleròsi laterale amiotrofica e di un ictus. Entrambe hanno una caratteristica particolare: non possono più articolare parole, ma ricordano perfettamente come si fa.
Ann e Pat si sono offerte volontarie per farsi impiantare dei sensori che rilevano l’attività dei neuroni delle aree del cervello associate ai movimenti facciali. Quando pensano di parlare, questi sensori captano i segnali di questa attività immaginata e li passano, attraverso un connettore, a un computer sul quale gira un software di intelligenza artificiale che li interpreta, riconoscendo i movimenti pensati, e poi riconosce anche quali suoni verrebbero prodotti da quei movimenti. Questi suoni, o fonemi, vengono infine convertiti in parole, che nel caso di Pat vengono mostrate su uno schermo, mentre nel caso di Ann vengono pronunciate da un sistema di sintesi vocale che usa campioni della sua voce tratti dal video del suo matrimonio e pilota un avatar digitale su uno schermo.
I risultati sono notevolissimi. Pat è in grado di comunicare alla velocità media di 62 parole al minuto e Ann arriva a 78, stracciando i record precedenti dei vecchi sistemi, che si fermavano a circa 15 parole al minuto. Per fare un paragone, una conversazione vocale normale procede a circa 160 parole al minuto, come il podcast che state ascoltando. Fra l’altro, i loro pensieri privati sono al sicuro: il software funziona solo quando Pat e Ann immaginano specificamente di parlare.
[Video: https://www.youtube.com/watch?v=iTZ2N-HJbwA]
Le apparecchiature presentate dai ricercatori in questi articoli sono ingombranti e richiedono alcuni mesi di addestramento, oltre a un delicato intervento chirurgico per impiantare i sensori, che poi tendono a spostarsi e richiedono frequenti ricalibrazioni, e il tasso di errore è ancora significativo. Ma l’idea stessa che basti ascoltare i segnali elettrici di meno di trecento neuroni per riconoscere una funzione complessa come parlare, e che sia possibile usare il software di intelligenza artificiale per decodificare questi segnali e captare parole pensate, è assolutamente affascinante e promettente. Il principio, impensabile dieci anni fa, è stato ormai dimostrato in pratica; ora si tratta di perfezionare e miniaturizzare questa tecnologia.
[Fonti aggiuntive: UCSF.edu; Ars Technica]
Si può usare l’IA per capire i linguaggi degli animali?
Ormai da qualche tempo i vari software di intelligenza artificiale sono in grado di fornire traduzioni automatiche passabili da una lingua all’altra, almeno per i concetti elementari, espressi senza ambiguità, e da sempre chi ha un rapporto stretto con un animale ne riconosce i suoni caratteristici e viceversa molti animali hanno dimostrato di riconoscere una vasta gamma di suoni emessi da noi umani e di avere un sistema di comunicazione sofisticato.
Sarebbe possibile usare l’intelligenza artificiale per creare un traduttore che capisca per esempio il gattese, il delfinese o il cincese? Sì, perché le cince, a quanto risulta dalle ricerche, hanno una comunicazione sonora incredibilmente complessa e flessibile, e ce l’hanno anche i cani delle praterie, con vocalizzi specifici per comunicare concetti complessi come “la donna con la maglietta blu è tornata”.
A prima vista insegnare a un’intelligenza artificiale un linguaggio animale non sembra un problema insormontabile. Esistono software di traduzione fra lingue umane straordinariamente differenti per suoni o struttura, come il cinese e l’islandese, e il metodo tipico di addestramento di un’intelligenza artificiale consiste in sostanza nel prendere tantissimi dati di una lingua e dell’altra, quello che si chiama in gergo un corpus, e poi lasciare che il software trovi gli schemi e le correlazioni. Il successo esplosivo dei traduttori automatici, dopo decenni di fallimenti dei software di traduzione basati su vocabolari e regole di sintassi e grammatica, è dovuto in gran parte a questo approccio: dai a un’intelligenza artificiale un corpus di qualche petabyte di dati e ti tirerà fuori qualcosa di interessante. E procurarsi qualche milione di ore di registrazioni di “conversazioni" di gatti, delfini o cince non sembra particolarmente difficile.
Ma in realtà non è così semplice. Per addestrare un modello linguistico servono anche altri due elementi. Il primo è una comprensione almeno elementare delle correlazioni fra le due lingue: un cosiddetto corpus parallelo, una sorta di Stele di Rosetta che faccia da ponte e indichi come si dice per esempio “cibo”, “sole”, “pericolo” nelle due lingue. Senza questo corpus parallelo l’intelligenza artificiale può riuscire lo stesso a fornire traduzioni accettabili, ma con molta più fatica.
Il secondo elemento è la cosiddetta struttura concettuale latente. Come spiega Noah Goodman, professore di psicologia, informatica e linguistica alla Stanford University in una recente intervista a Engadget, nel tradurre da una lingua umana a un’altra diamo per scontato che certi concetti, come per esempio “uomo” o “donna”, esistano in entrambe. Non possiamo darlo per scontato nelle lingue degli animali, per i quali magari la distinzione fra uomini e donne è irrilevante come lo è per noi la differenza fra alligatori e coccodrilli, e senza questa struttura concettuale il problema si complica.
Tuttavia c’è una speranza: se i suoni degli animali vengono registrati in modo multimodale, ossia includendo anche il contesto, con informazioni come le condizioni ambientali, l’ora e il periodo dell’anno, la presenza di prede o predatori, allora è possibile usare l’intelligenza artificiale come ponte linguistico fra umani e animali. Lo si sta già tentando per esempio con i delfini, raccogliendo le posizioni relative dei singoli esemplari insieme ai loro suoni, e un esperimento del 2017 è riuscito a decodificare tramite l’intelligenza artificiale il lessico abbastanza limitato delle conversazioni delle scimmie note come callìtrice o marmosetta con un’accuratezza del 90 per cento.
Ma per il momento in generale i dati a disposizione sono troppo pochi e le risorse di calcolo scarseggiano. Nel prossimo futuro aumenteranno inevitabilmente, per cui la sfida è solo rinviata e chi sperava di portarsi a casa un collarino o un’app che traducesse esattamente cosa sta cercando di dirci Fido o Felicette dovrà aspettare ancora un bel po’.
Il vero problema, non tecnico, è che forse non abbiamo molta voglia di sentirci dire dagli animali cosa pensano di noi e di quello che facciamo a loro.
I cantanti clonati con l’IA non sono sotto il vincolo del copyright?
[CLIP: “Elvis” canta Baby Got Back, https://www.youtube.com/watch?v=IXcITn507Jk]
La voce è quella di Elvis Presley, la musica è quella del suo brano classico Don’t Be Cruel del 1956, ma le parole sono quelle di Baby Got Back, un brano di Sir Mix-A-Lot che risale al 1992, quindici anni dopo la morte di Elvis.
Ovviamente il Re del Rock’n’Roll non può aver previsto i testi di Sir Mix-A-Lot e quindi la sua voce deve essere stata sintetizzata. Ma di preciso come si fa a ottenere un risultato del genere? Avrete già intuito che c’è di mezzo l’intelligenza artificiale, ma c’è anche moltissimo lavoro umano, e questo è molto importante per il futuro della musica in generale.
Il brano interpretato dal finto Elvis Presley è stato realizzato da Dustin Ballard, titolare del canale YouTube There I Ruined It e non nuovo a ibridazioni musicali di questo genere. Per prima cosa ha dovuto registrare il brano cantando lui stesso, con la sua voce, imitando lo stile ma non le tonalità di Elvis, e poi ha dato questa registrazione in pasto a un particolare modello di intelligenza artificiale dedicato alla conversione delle voci cantate, che è diversa dalla conversione del parlato. La parte strumentale, invece, è stata realizzata in una comune applicazione per la composizione di basi musicali.
Il convertitore, però, ha bisogno di campioni accuratamente selezionati della voce che deve produrre, e quindi è necessario prima di tutto procurarsi una serie molto ampia di registrazioni di alta qualità di quella voce, isolate dagli strumenti musicali di accompagnamento, cosa non proprio facile da ottenere. Su Discord ci sono comunità dedicate specificamente alla creazione di modelli vocali di persone famose, e Dustin Ballard ha usato uno di questi modelli, realizzato da Michael van Voorst, per la sua canzone dimostrativa.
Il risultato può piacere o non piacere, ma dimostra molto chiaramente che oggi è possibile creare a basso costo versioni di canzoni interpretate da voci sintetiche ispirate a quelle di cantanti celebri del passato o del presente, con tutte le implicazioni legali che ne conseguono. È abbastanza intuitivo che sia illecito o almeno discutibile usare la voce di qualcun altro senza il suo permesso, ma è meno intuitivo il paradosso del fatto che questa versione sintetica è libera di circolare, mentre quella originale, quella Don’t Be Cruel del 1956, è vincolata dal copyright e se tentate di condividerla su YouTube verrà bloccata dai filtri antipirateria su ordine della Universal Music Group. Rischiamo di essere sommersi dai cloni canori gratuiti, usabili senza problemi su YouTube o TikTok, mentre gli originali a pagamento sono sotto chiave e finiscono in disuso perché i video che li usano anche solo in sottofondo a una festa vengono bannati.
L’esperimento di Dustin Ballard rivela anche un’altra questione sulla quale ci sarà molto da discutere: il ruolo dell’intervento umano nelle creazioni sintetiche di questo genere. Il mese scorso una giudice federale statunitense ha stabilito che le illustrazioni generate dall’intelligenza artificiale, come per esempio quelle di Midjourney, non possono essere protette dalle leggi sul diritto d’autore, perché in queste produzioni manca completamente la mano umana. “La creatività umana è il sine qua non al centro della tutelabilità tramite copyright”, ha scritto nella sentenza.
Ma nel caso dell’Elvis sintetico la mano umana c’è eccome, e c’è anche la voce umana usata come punto di partenza, oltre alla scelta creativa di abbinare quella voce a quel brano e a quel testo. E nelle immagini sintetiche c’è l’intervento umano, che consiste nel comporre il testo del prompt, ossia della serie di istruzioni date all’intelligenza artificiale per guidarla nella generazione dell’immagine.
Per esempio, è un atto creativo sufficiente chiedere a un software di generare un’illustrazione dicendogli “Fai un dipinto di Tom Cruise vestito da marinaretto, a figura intera, mentre cavalca un unicorno pezzato muscoloso e rampante, sotto la pioggia, nello stile di Caravaggio”? In fin dei conti, contiene una serie di scelte umane forse discutibili ma sicuramente ben precise, un po’ come un collage prende pezzi di opere altrui ma li rimonta secondo le scelte del suo ideatore.
Dove stia il limite non è ancora chiaro, ma i tribunali verranno chiamati sempre più spesso a deciderlo, man mano che le possibilità offerte dall’intelligenza artificiale si estenderanno. In attesa di queste decisioni, non ci resta che ascoltare un’altra delle creazioni, se così è lecito chiamarle, di Dustin Ballard e del suo software: la voce sintetizzata e inconfondibile di Johnny Cash che canta Barbie Girl a modo suo.
[CLIP di “Johnny Cash” https://www.youtube.com/watch?v=HyfQVZHmArA]
[Qualche altro esempio extra podcast, se questo non vi è bastato]