Il Disinformatico: Podcast RSI - Story: L’attacco dei cloni vocali

È disponibile subito il podcast di oggi de Il Disinformatico della Radiotelevisione Svizzera, scritto, montato e condotto dal sottoscritto: lo trovate presso www.rsi.ch/ildisinformatico (link diretto) e qui sotto.

Le puntate del Disinformatico sono ascoltabili anche tramite feed RSS, iTunes, Google Podcasts e Spotify.

Buon ascolto, e se vi interessano il testo di accompagnamento e i link alle fonti di questa puntata, sono qui sotto.

---

[CLIP: Yoda: “Cominciata la guerra dei cloni è” da “Star Wars - L’Attacco dei Cloni”]

Non è la prima volta che questo podcast si occupa di voci clonate. Ad aprile scorso avevo raccontato la vicenda del brano Heart on My Sleeve, creato con le voci sintetiche di Drake e The Weeknd, e gli esempi di clonazione di voci di personaggi famosi, usati per le truffe, ormai non si contano, come nel caso recente del falso video di Elon Musk che sembra promuovere una truffa basata sulle criptovalute. Ma sono quasi sempre voci in inglese, e soprattutto sono le voci degli altri.

Che cosa succede, e come ci si sente, quando la voce clonata è invece in italiano, e non è quella di qualcun altro ma è la propria, e la si ascolta mentre pronuncia perfettamente parole mai dette? E quali sono le implicazioni sociali e di sicurezza di questa tecnologia, che oggi produce risultati praticamente indistiguibili dall’originale?

Questa è la storia di come ho clonato la mia voce, usando un servizio commerciale aperto a chiunque, e di come oggi dobbiamo imparare a non fidarci più non solo dei nostri occhi con i deepfake, ma anche delle nostre orecchie.

Benvenuti alla puntata del 4 agosto 2023 del Disinformatico, il podcast della Radiotelevisione Svizzera dedicato alle notizie e alle storie strane dell’informatica. Io sono Paolo Attivissimo. O forse sono il suo clone. Ascoltate attentamente, e provate a vedere se riuscite a capire quando sto parlando realmente io e quando invece affido questo podcast al mio clone.

[SIGLA di apertura]

Parto subito con una premessa importante: clonare bene la voce di qualcuno non è facile, come molti pensano. Certo, ci sono numerosi software e servizi online facilmente accessibili, ai quali si può affidare una breve registrazione della voce di qualcuno, senza alcun controllo di identità, e ottenerne in pochi minuti un clone abbastanza somigliante al quale far dire qualunque cosa, come ha fatto recentemente il programma Falò della Radiotelevisione Svizzera, clonando voce e immagine del conduttore Michele Galfetti.

[CLIP: Audio di Galfetti clonato]

Ma c’è comunque qualcosa di robotico e piatto nei cloni fatti in questo modo. Sono sufficienti a ingannare un ascoltatore distratto, permettono di fare qualche burla su TikTok e consentono anche di creare truffe come quella che sfrutta la voce di Elon Musk, citata prima, o quella, molto in voga in questo periodo, della falsa telefonata di un familiare che chiede urgentemente soldi per tirarsi fuori da un guaio. Ma ascoltando con attenzione queste voci ci si accorge che sono in qualche modo artificiali.

Per ottenere un clone vocale credibile, come quello che state ascoltando qua e là in questo podcast in alternanza con la mia voce reale, serve molto di più: servono soldi, tempo, e tanti campioni di voce puliti, che non sono facili da ottenere. E poi ci sono controlli di sicurezza difficili da superare.

I soldi servono per acquistare un account professionale su una delle tante piattaforme di clonazione vocale, come Resemble o Speechify o Elevenlabs, che è quella che ho usato per questo esperimento. Per poter clonare bene una singola voce bisogna spendere una ventina di dollari al mese; per clonarne di più i prezzi salgono molto in fretta.

Poi servono i campioni della voce da clonare, e ne servono tanti e di ottima qualità. Non basta piazzare un microfono vicino a qualcuno per qualche minuto per rubargli la voce. Servono almeno trenta minuti di audio molto pulito, senza rumori di fondo, per ottenere risultati accettabili, e le voci migliori richiedono tre ore di campioni. Procurarsi così tante registrazioni pulite non è facile, a meno che si tratti della voce di qualcuno che parla spesso in pubblico, davanti a un buon microfono, come appunto un conduttore radiofonico o un podcaster.

E anche così, ci sono delle limitazioni: la voce clonata avrà infatti lo stesso tono che hanno le registrazioni usate per crearla. Se i campioni provengono da discorsi in pubblico, avranno il tono di chi parla ad alta voce a degli ascoltatori; se provengono da una conversazione privata, avranno un tono più sommesso e intimo, e non ci sarà modo di cambiarlo. Io ho usato le registrazioni della mia voce fatte per le puntate precedenti di questo podcast, per cui il tono risultante è quello ottimale per produrre un clone da podcast, ma non potrei usare questa voce sintetica per, che so, recitare una poesia.

Gli ostacoli non sono finiti. Bisogna anche armarsi di pazienza, perché una volta inviati i campioni al servizio di clonazione, bisogna aspettare che vengano elaborati, e questo può richiedere anche giorni o settimane. Nel mio caso è passato quasi un mese. E nell’attesa si continua a pagare.

Resta un ultimo ostacolo: dopo aver inviato al servizio i campioni della voce, bisogna anche che quella stessa voce legga in tempo reale una frase generata a caso dal servizio nella lingua scelta. Questa è una misura di sicurezza molto importante, per evitare gli abusi facilmente immaginabili: in pratica questo controllo impedisce di clonare la voce di qualcun altro senza il suo permesso e impersonarlo, perché la persona da clonare deve essere presente in carne e ossa per pronunciare la frase di sicurezza.

E a proposito di abusi, bisogna tenere presente che quando si usa un servizio di clonazione vocale online si affida ai gestori di quel servizio tutto il necessario per clonare la propria voce all’infinito. È un potere che non va dato alla leggera, soprattutto se il servizio appartiene a un social network il cui modello commerciale è proprio acquisire tutti i dati possibili sui propri utenti.

Una volta fatto tutto questo, non resta che aspettare.

Il clone apprendista e l’attore disoccupato

Quando finalmente arriva la voce clonata, bisogna imparare a impostarla e a farla parlare in modo naturale. E qui emerge un aspetto leggermente inquietante di questi servizi: alcuni, come appunto Elevenlabs, spiegano che hanno notato che la voce sintetica diventa più emotiva se invece di darle semplicemente il testo da leggere, così com’è, le si prepara una premessa che descriva il tono da usare, come se si trattasse dei dialoghi di un libro.

Se la premessa dice cose come "Paolo parla con voce emozionata e confusa", l’intelligenza artificiale del software di sintesi vocale usa questi suggerimenti per plasmare il tono della voce generata. Ma neanche i gestori di questi servizi sanno di preciso come funzioni tutto questo e lo ammettono abbastanza candidamente, precisando che ci sono trucchi che sembrano funzionare, ma non sempre, a discrezione dell’intelligenza artificiale. E se si genera ripetutamente lo stesso testo, si ottengono risultati differenti ogni volta. Altri servizi usano un approccio più manuale, nel quale si possono muovere dei cursori e inserire dei comandi nel testo per dare istruzioni sull’enfasi da dare alle varie parole.

[L’intonazione e le pause di tutte le parti pronunciate dalla mia voce clonata sono state scelte automaticamente dal software; io mi sono limitato a dare a Elevenlabs il testo che state leggendo, precedendolo con una breve premessa di descrizione emotiva]

Poi c’è il problema della pronuncia delle sigle e dei nomi propri: cose che una speaker professionista leggerebbe correttamente senza batter ciglio, come per esempio “www” in un indirizzo Web, vanno scritte foneticamente, altrimenti si otterranno risultati imbarazzanti. A volte bisogna addirittura ricorrere all’alfabeto fonetico internazionale, quello con i simboli strani che vedete spesso nei vocabolari, e comporre le parole lettera dopo lettera, provando e riprovando fino a ottenere la pronuncia corretta. Con uno di questi software di sintesi vocale ho speso qualche ora solo per insegnargli a pronunciare correttamente la singola parola webinar, che si ostinava a pronunciare webìnar o webinàr.

Insomma, ottenere un buon risultato non è una passeggiata, e chiunque pensi che questi servizi possano sostituire in fretta e con poca spesa uno speaker professionista, o peggio ancora un doppiatore, rischia di rendersi conto ben presto che senza una persona esperta che le addomestichi, queste voci sintetiche danno risultati mediocri, e quindi si finisce per pagare comunque qualcuno, ossia il tecnico che sa come comandare la voce. Se la voce in questione non appartiene a qualche strapagata e irreperibile celebrità, il risparmio di tempo e di denaro rischia di essere modesto.

C’è da dire, però, che se si riesce a superare tutta questa serie di limitazioni l’effetto di sentire la propria voce che dice cose mai dette è per molti sconcertante, perché la voce sintetica professionale ha davvero la stessa timbrica, le stesse cadenze, le stesse pause e intonazioni di quella originale. Clonando la mia voce ho provato la sensazione inaspettatamente viscerale e profonda di aver perso il controllo di qualcosa di profondamente mio, una sorta di violazione digitale, un distacco dalla realtà. Una realtà sempre più fragile, perché ora non possiamo più accettare come prova una registrazione della voce di qualcuno, se quella registrazione non ha una fonte attendibile, preferibilmente multipla, e indipendente. Le persone accusate di aver detto cose incriminanti potranno negare di averle dette e affermare che le registrazioni che le inchiodano sono false. O almeno insinuare facilmente il dubbio che lo siano.

Queste sensazioni hanno reso molto chiaro anche il problema attualissimo alla base dello sciopero degli attori a Hollywood: le grandi case di produzione spingono affinché attori e attrici firmino contratti in base ai quali le loro voci possano essere digitalizzate una sola volta, pagate una sola volta e poi riutilizzate all’infinito, con ovvie conseguenze per la sussistenza dei proprietari di quelle voci.

Alcuni hanno già accettato, come James Earl Jones, la straordinaria voce originale di Darth Vader nella saga di Star Wars. Per sopraggiunti limiti di età, l’attore novantaduenne ha già ceduto da tempo alla Disney i diritti sulla propria voce, che viene ora clonata da Respeecher per le più recenti serie della saga. Anche Hollywood viene rivoluzionata dall’arrivo dell’intelligenza artificiale.

Nuove libertà di tempo e di lingua

Una volta superato lo sconcerto iniziale, comunque, ci si rende conto in fretta che questi servizi di clonazione vocale, se ben regolamentati, offrono opportunità positive straordinarie.

Per esempio, una persona che per malattia perdesse la propria voce potrebbe riprendere a parlare con quella voce attraverso un apparato di sintesi vocale, invece di avere una voce robotica e impersonale. Oppure si potrebbe recuperare la voce di chi non c’è più: immaginate, giusto per dire, le poesie di Ungaretti lette dalla voce di Ungaretti stesso, o le avventure di Maigret lette da Simenon. Un attore che deve dare una voce molto particolare a un personaggio rischia di rovinarsi le corde vocali [pensate a Andy Serkis con Gollum] se lo fa a lungo; la cosiddetta clonazione speech-to-speech gli permette invece di registrare solo un campione della voce speciale e poi recitare con la sua voce normale. Lo stesso vale per un’attrice che deve adottare un accento particolare: può recitare normalmente, senza che lo sforzo di mantenere l’accento interferisca con la sua capacità recitativa e senza rischiare il ridicolo; ci penserà il software a darle l’accento perfetto.

[Un altro esempio di applicazione è sottinteso nello spezzone di audio iniziale del podcast: la voce doppiata di Yoda ne L’attacco dei Cloni è diversissima da quella che ha nella trilogia originale, perché è cambiato il doppiatore, come capita spesso nel doppiaggio, per cui gli attori e i personaggi non hanno sempre la stessa voce, con un effetto molto fastidioso. La clonazione speech-to-speech risolverebbe il problema]

Ci sono ovviamente complicate questioni legali da risolvere e regole da ripensare e riscrivere in tutto questo, ma le prospettive di superare le barriere del tempo e della malattia sono affascinanti.

Un’altra sorpresa del mio piccolo esperimento di clonazione vocale è che il software è in grado di usare i campioni della mia voce in una lingua, nel mio caso l’italiano, per generare del parlato in altre lingue. Per esempio, questo sono io che do il benvenuto a questo podcast in francese, tedesco, spagnolo, polacco, portoghese e hindi, tutte lingue nelle quali è meglio che io non mi cimenti dal vero.

[CLIP: campioni di voce multilingue generata di Paolo]

Tutte queste novità e possibilità possono disorientare e preoccupare, ma se vengono affrontate con prontezza e senza pregiudizi, regolamentandole per tempo, possono essere l’inizio di nuove forme di lavoro e di creatività. E come noi consideriamo assolutamente normale sentire la voce incorporea di una persona lontana attraverso il telefonino, probabilmente chi nasce oggi troverà altrettanto normale parlare con un clone vocale dei propri amici e colleghi, e forse non gli sembrerà neppure importante la differenza fra clone e originale. Almeno fino al momento in cui vorrà passare dallo speech-to-speech al cheek to cheek.

Come riconoscere il mio clone

Se vi state chiedendo quali parti di questo podcast sono state pronunciate realmente da me e quali dalla mia voce clonata, provate a riascoltarlo in cuffia: le parti reali sono spostate leggermente a sinistra, mentre quelle sintetiche sono traslate altrettanto leggermente a destra. Oppure provate a notare la differenza di accento fra la mia voce vera e quella generata.

Vi ringrazio di aver seguito questa puntata un po’ particolare del podcast Il Disinformatico, una produzione della RSI Radiotelevisione svizzera, che si prende una breve pausa estiva e tornerà venerdì 25 agosto con una nuova puntata al solito indirizzo web, www.rsi.ch/ildisinformatico, e su tutte le principali piattaforme podcast, dove sono a vostra disposizione anche le puntate precedenti.

Come consueto, i link e le fonti di riferimento sono pubblicati presso Disinformatico.info. E se avete commenti, correzioni o segnalazioni, potete scrivermi una mail all’indirizzo paolo.attivissimo@rsi.ch. A presto.

Il Disinformatico

2023/08/03

Podcast RSI - Story: L’attacco dei cloni vocali

Il clone apprendista e l’attore disoccupato

Nuove libertà di tempo e di lingua

Come riconoscere il mio clone

Pagine per dispositivi mobili