Il Disinformatico: Podcast del Disinformatico 2021/07/30: Perché i computer parlano... come computer? Breve storia della sintesi vocale

Ultimo aggiornamento: 2021/07/30 13:40.

È disponibile subito il podcast di oggi de Il Disinformatico della Rete Tre della Radiotelevisione Svizzera, condotto dal sottoscritto: lo trovate presso www.rsi.ch/ildisinformatico (link diretto). Questa è l’edizione estiva, dedicata a un singolo argomento.

I podcast del Disinformatico di Rete Tre sono ascoltabili anche tramite feed RSS, iTunes, Google Podcasts e Spotify.

Buon ascolto, e se vi interessano il testo e i link alle fonti della storia di oggi, sono qui sotto!

Nota: la parola CLIP nel testo che segue non è un segnaposto in attesa che io inserisca dei contenuti. Indica semplicemente che in quel punto del podcast c’è uno spezzone audio. Se volete sentirlo, ascoltate il podcast oppure guardate il video che ho incluso nella trascrizione.

Correzione: Nel podcast ho detto che la voce di HAL in inglese era di Claude Rains, ma mi sono maldestramente sbagliato: era di Douglas Rain (Claude Rains era l’interprete del classico L’uomo invisibile del 1933). Ho corretto nel testo qui sotto. Grazie a chi mi ha segnalato lo sbaglio nei commenti. Mi scuso per l’errore.

----

(CLIP: HAL)

È una delle scene più celebri e raggelanti del film di Stanley Kubrick 2001: Odissea nello spazio. A bordo dell’astronave Discovery, in viaggio verso il pianeta Giove, il supercomputer HAL 9000 chiude inesorabilmente le comunicazioni con l’unico astronauta sopravvissuto, David Bowman. Gli altri membri dell’equipaggio sono stati uccisi proprio da HAL.

Oggi l’idea di comunicare a voce con un computer ci sembra ovvia e banale, grazie agli assistenti vocali, ma all’epoca in cui Kubrick girò questo capolavoro della fantascienza, mezzo secolo fa, era appunto un concetto da fantascienza. I computer, anzi i calcolatori di quell’epoca, enormi e costosissimi, comunicavano solitamente stampando i propri messaggi o mostrandoli su un monitor. Farli parlare sembrava impensabile.

Questa è la storia di come abbiamo insegnato ai computer a parlare con naturalezza. Ora che ci siamo riusciti, saremo capaci anche di farli smettere?

---

La tecnica che consente di riprodurre artificialmente la voce umana si chiama sintesi vocale. Non è particolarmente nuova: uno dei primissimi esempi di sintesi vocale elettrica è VODER, che risale addirittura al 1939. Sì, avete capito bene: all’inizio della Seconda Guerra Mondiale c’erano già voci sintetiche. Ecco VODER che tenta a fatica di dire OK e simulare una risata.

(CLIP: VODER)

La demo, ben più lunga, dalla quale ho tratto solo l’“OK” e la “risata”.

Certo, VODER non era un granché; le sue parole erano quasi incomprensibili, e serviva il lavoro di un operatore umano per fargliele generare. Ma stabiliva e dimostrava un principio importantissimo: era possibile creare una voce umana artificiale.

Una ventina d’anni più tardi, nel 1961, John Larry Kelly Jr e Carol Lockbaum, del centro di ricerca statunitense Bell Labs, usarono un computer IBM 7094 per sintetizzare una voce umana un po’ più intellegibile, che addirittura cantava:

(CLIP: Daisy 1961)

Questa dimostrazione, che oggi fa sorridere per quanto è primitiva, ebbe però all'epoca un effetto sensazionale e colpì in particolare un certo amico di John Larry Kelly: lo scrittore di fantascienza Arthur C. Clarke, coautore insieme a Stanley Kubrick della sceneggiatura di 2001: Odissea nello spazio. Nel film c’è una celebre scena in cui HAL viene disattivato progressivamente dall’astronauta sopravvissuto. Nell’edizione italiana, HAL canta Giro giro tondo.

(CLIP: HAL canta in italiano)

Ma nella versione originale del film il computer canta un’altra canzone:

(CLIP: HAL canta in inglese)

Sì, è la stessa melodia, intitolata Daisy Bell, usata in quella storica demo informatica di sintesi vocale del 1961: una citazione nascosta e discreta, voluta da Arthur Clarke, che purtroppo si è persa nel doppiaggio.

Nel film, fra l’altro, non furono usate voci sintetiche per il computer: in originale la voce di HAL fu recitata dall’attore Douglas Rain, mentre in italiano fu creata dall’attore e doppiatore Gianfranco Bellini.

La cadenza fredda e inumana della voce di HAL, e in generale delle voci robotiche e sintetiche usate in tanti film e telefilm classici di fantascienza, è basata sul fatto che all’epoca la sintesi vocale reale era proprio così: incapace di rappresentare tutte le sfumature ed emozioni di una voce umana.

Per poterlo fare, un computer doveva prima di tutto imparare a leggere ad alta voce automaticamente qualunque testo, senza l’aiuto caso per caso di un operatore umano come in passato. Questo è il cosiddetto text-to-speech, ossia “dal testo al parlato”, il cui primo esempio fu creato da Noriko Umeda in Giappone nel 1968.

Pochi anni dopo, nel 1976, Raymond Kurzweil presentò una delle prime applicazioni pratiche di queste ricerche: un assistente di lettura per ciechi e ipovedenti. In questi dispositivi, uno scanner riconosceva le lettere stampate nei libri e generava i suoni vocali corrispondenti, permettendo quindi la lettura di qualunque testo comune anche a chi normalmente era escluso da questa possibilità. Era un sistema molto costoso e ingombrante, che potevano permettersi solo alcune biblioteche, ma era un inizio.

La prima sintesi vocale in italiano si chiamava MUSA e nacque nel 1975 presso i laboratori CSELT.

(CLIP: Musa)

Anche in questo caso non manca la dimostrazione di... talento canoro, che per MUSA arrivò tre anni più tardi, ma arrivò:

(CLIP: musa-framartino)

Pochi anni dopo arrivarono i sistemi di sintesi vocale portatili, integrati in personal computer come i Macintosh e gli Amiga, ridando la possibilità di parlare a chi l’aveva persa a seguito di trauma o malattia, come il celebre fisico britannico Stephen Hawking, la cui voce sintetica divenne il suo marchio caratteristico, anche se in realtà gli dava un accento fortemente americano perché era basata sui campioni della voce di uno dei pionieri del settore, Dennis Klatt.

(CLIP: Hawking)

La sintesi vocale, insomma, arriva da molto lontano nel tempo, ma avrete notato che tutti questi esempi hanno un difetto: sono a malapena comprensibili, oltre che privi di cadenza, naturalezza ed emozione. Funzionano, sono utili, ma non sono certo piacevoli da usare.

Confrontate questi campioni del passato con una sintesi vocale odierna, quella di Siri di Apple:

(CLIP: Siri risponde alla richiesta “Cantami una canzone”)

Non è perfetta, ma è molto più chiara e naturale. Cosa è cambiato? Fondamentalmente tre cose: la potenza di calcolo, la quantità di memoria, e un trucco.

I suoni di base di una lingua, i cosiddetti fonemi, sono relativamente pochi, una cinquantina in italiano, ma non basta generarli in sequenza in una sorta di collage di pezzetti: nel linguaggio naturale, infatti, vengono pronunciati in modo differente all’inizio o alla fine di una parola, dopo una pausa, o in una domanda, o per sottolineare un concetto.

Per una sintesi vocale naturale serve quindi un archivio enorme di tutti questi suoni elementari nelle varie situazioni, e questo archivio richiede tanta memoria digitale. Serve poi anche una grande potenza di calcolo per scegliere rapidissimamente, istante per istante e caso per caso, quale campione vocale usare.

Il problema è generare questi archivi: occorre prendere una persona che abbia la voce giusta e farle registrare decine di ore di parlato di tutti i generi, da cui estrarre poi i vari campioni. In altre parole, mentre i sistemi di sintesi vocale del passato cercavano di generare i suoni da zero, quelli di oggi “barano”, per così dire, prendendo dei suoni umani reali e poi scomponendoli e riassemblandoli. E c’è anche un altro trucco: le frasi ed espressioni più ricorrenti sono preregistrate in blocco.

(CLIP: Siri risponde alla richiesta “Dimmi uno scioglilingua”)

La prossima frontiera della sintesi vocale è il deepfake sonoro: l’imitazione perfetta, indistinguibile dall’originale, della voce di una specifica persona. Per ottenerla servono tantissimi campioni della voce da imitare: ma se si tratta di una celebrità o di una persona che parla spesso in pubblico, questo non è difficile.

La novità è che come per i deepfake visivi, che permettono di creare videoclip molto realistici nei quali il volto di una persona viene sostituito con quello di un altro, il lavoro di selezione e montaggio dei campioni di suono viene fatto automaticamente dal software, che funziona su un comune computer domestico.

Questo vuol dire che sta diventando sempre più facile creare duplicati perfetti della voce di qualcuno, e che quindi non potremo più fidarci di quello che sentiamo se non abbiamo davanti a noi in carne e ossa la persona che sta parlando.

Non è teoria: a maggio del 2021 è stato segnalato un caso di tentato crimine informatico messo a segno usando la sintesi vocale. I criminali hanno imitato al telefono la voce di un direttore d’azienda e gli hanno fatto dire di effettuare un pagamento di 243.000 dollari per chiudere una trattativa con un cliente. L’assistente si è fidato perché ha creduto di riconoscere la voce del suo direttore.

È una frontiera inquietante. Fra l’altro, probabilmente non ve ne siete accorti, ma in realtà una frase di questo podcast non l’ho pronunciata io, ma uno di questi generatori di deepfake vocali.

No, non è vero. Almeno per ora. Ma vi è venuto un brivido, vero?

Fonti aggiuntive: Wired.com; Aalto.fi (i campioni sonori citati sono in questo video); Wikipedia; McGill.ca.

Il Disinformatico

Cerca nel blog

2021/07/30

Podcast del Disinformatico 2021/07/30: Perché i computer parlano... come computer? Breve storia della sintesi vocale

Nessun commento: