Il Disinformatico: Podcast RSI - STORY: musica e intelligenza artificiale, amici o nemici?

2022/07/08

Podcast RSI - STORY: musica e intelligenza artificiale, amici o nemici?

Ultimo aggiornamento: 2022/07/09 21:15.

È disponibile subito il podcast di oggi de Il Disinformatico della Radiotelevisione Svizzera, scritto, montato e condotto dal sottoscritto: lo trovate presso www.rsi.ch/ildisinformatico (link diretto) e qui sotto.

I podcast del Disinformatico sono ascoltabili anche tramite feed RSS, iTunes, Google Podcasts e Spotify.

Buon ascolto, e se vi interessano il testo e i link alle fonti di questa puntata, sono qui sotto.

---

Prologo

[CLIP: Invention no. 1]

Siamo nel 1981, negli Stati Uniti, dove un compositore, il quarantenne David Cope, sta subendo un classico blocco creativo. Deve scrivere la partitura di un’opera lirica che gli è stata commissionata, ma non riesce a trovare un’ispirazione decente. Da appassionato d’informatica, si chiede se il suo computer possa assisterlo, imparando il suo stile e aiutandolo a prendere delle decisioni musicali nei momenti di scarsa creatività. E così comincia a scrivere un programma, al quale dà poi in pasto la collezione delle cosiddette Invenzioni di Johannes Sebastian Bach, uno dei suoi compositori preferiti.*

* Nel podcast dico che Cope iniziò a scrivere il programma su un Apple Macintosh, basandomi su quanto scritto nell’articolo del New York Times citato in fondo a questo mio articolo, ma il Macintosh debuttò solo nel 1984; inoltre Cope stesso, in uno dei video che cito qui sotto, parla di aver usato invece un Apple IIe, che comparve nel 1983. C’è quindi un vuoto non chiaro di almeno due anni fra il momento del blocco creativo e l’uso di un computer Apple. Però Cope, sempre nello stesso video, dice che ebbe accesso a risorse informatiche universitarie, per cui è possibile che abbia iniziato lo sviluppo del programma su queste risorse per poi migrarlo a un Apple IIe un paio d’anni dopo.

[CLIP: Invention no. 2]

A questo programma dà il nome Experiments in Musical Intelligence, in acronimo EMI, che lui pronuncia Emmy. Sette anni dopo, nel 1988, Emmy genererà il primo di una serie di brani nello stile di Bach, come quello che state ascoltando in sottofondo, e nel 1997 riuscirà a ingannare il pubblico durante un esperimento all’Universita dell’Oregon a Eugene. In un confronto alla cieca fra un brano autentico di Bach, uno scritto da un compositore contemporaneo nello stesso stile e uno generato da Emmy, il pubblico decide che il brano di Emmy -- quello generato dal computer -- è il vero Bach.

A 13m34s, Cope racconta la storia di Emmy e a 15m30s specifica che la versione preliminare di Emmy fu sviluppata su un Apple IIe.

Questa è la storia della musica sintetica, generata dalle intelligenze artificiali, e di come sta cambiando il nostro modo di pensare alla musica e di produrre musica.

Benvenuti a questa puntata del Disinformatico, il podcast della Radiotelevisione Svizzera dedicato alle notizie e alle storie strane dell’informatica. Io sono Paolo Attivissimo.

[SIGLA di apertura]

Il programma Emmy di David Cope non è il primo del suo genere: l’idea della musica generata tramite software risale a più di sessant’anni fa, visto che già nel 1957 era stata realizzata la prima partitura generata tramite calcolatore. Era stata intitolata Illiac Suite, in onore del computer ILLIAC-1 presso la University of Illinois a Urbana-Champaign, programmato dai professori Lejaren Hiller e Leonard Isacsson della stessa università. Qui sentiamo un brano di quella partitura, eseguita però da strumentisti in carne e ossa.

[CLIP: Illiac-1]

Nel 1965, l’inventore Ray Kurzweil aveva presentato alla TV americana un pezzo per pianoforte generato da un computer, costruito e programmato da lui, che era in grado di riconoscere gli schemi presenti nelle composizioni preesistenti e usarli per creare nuove melodie. All’epoca Ray Kurzweil aveva diciassette anni.

[CLIP: Kurzweil]

Negli anni successivi, Ray Kurzweil rivoluzionerà il riconoscimento ottico dei caratteri, la sintesi vocale, il riconoscimento vocale e gli strumenti elettronici a tastiera, e scusate se è poco. Oggi lavora a Google.

C’erano stati degli esperimenti ancora precedenti negli anni Cinquanta, ma riguardavano la riproduzione di musica tramite computer: il matematico Alan Turing, uno dei massimi pionieri dell’informatica, noto soprattutto per la decrittazione dei codici delle comunicazioni militari naziste durante la Seconda Guerra Mondiale, era riuscito a far riprodurre a uno degli enormi, primitivi computer dell’epoca dei brani musicali. Questo che state per ascoltare è uno spezzone della registrazione più antica di musica generata da computer di cui si abbia conoscenza: risale al 1951 ed è incisa su un disco di acetato che si trova negli archivi della BBC. Dopo l’inno nazionale e una canzoncina per bambini, il computer si cimenta in In the Mood di Glenn Miller.

[CLIP: In the Mood. Notate la voce femminile che ride e commenta la registrazione mentre dà istruzioni]

Ma questa è pura e semplice riproduzione di musica esistente, appunto: quello che fa Emmy a partire dagli anni Ottanta, invece, è generazione, o se preferite un termine più controverso, creazione di musica.

Negli anni Novanta si comincia a sperimentare anche la generazione tramite computer dei testi delle canzoni. E lo fa, in particolare, un artista che non farete fatica a riconoscere dalla voce.

[CLIP: Verbasizer]

È David Bowie, che spiega che nella produzione del’album Outside del 1995 usa un PowerBook di Apple sul quale gira un programma, sviluppato da lui e chiamato Verbasizer, che genera frasi a caso dalle quali lui poi prende ispirazione, in particolare per il brano Hallo Spaceboy.

Da allora molti artisti hanno esplorato la composizione assistita da intelligenze artificiali: per esempio, nel 2016 il progetto di ricerca Flow Machines della Sony, che stava tentando di sviluppare algoritmi che catturassero e riproducessero gli stili musicali, ha presentato Daddy’s Car, una canzone nello stile dei Beatles.

[CLIP: Daddy's Car]

Lo stile beatlesiano è abbastanza azzeccato, ma il risultato è un mix abbastanza insoddisfacente di cliché.

Due anni più tardi, nel 2018, lo stesso progetto di Flow Machines ha creato insieme all’artista musicale Skygge e un vasto numero di collaboratori l’album Hello, World, che viene considerato il primo album pop composto insieme a un’intelligenza artificiale. I progressi si fanno sentire.

[CLIP: Hellow Shadow]

E ci sono applicazioni come AIVA, acronimo di Artificial Intelligence Virtual Artist, che creano colonne sonore usando l’intelligenza artificiale, anche qui con risultati decisamente notevoli:

[CLIP: I Am AI (Variation)]

La ricerca galoppa, insomma, ma sorprendentemente uno dei maggiori ostacoli per chi lavora in questo campo non è la potenza di calcolo: è il copyright, che obbliga a usare come corpus di addestramento soltanto brani liberamente utilizzabili. Questo porta a situazioni surreali, come per esempio i ricercatori costretti a lavorare solo su musica folcloristica finlandese perché la Finlandia ha meticolosamente catalogato, indicizzato e reso pubblicamente disponibile un ampio e dettagliatissimo archivio di questo tipo di musica. Ma se si prendono i brani musicali dalle classifiche per darli in pasto a un sistema di machine learning che generi altri brani dello stesso tipo, si rischia di inciampare nelle complicatissime leggi sul diritto d’autore, che oltretutto sono differenti nei vari paesi.

Nonostante questa limitazione, l’uso dell’intelligenza artificiale nella musica continua, sia come aiuto per gli artisti in cerca di nuove idee, sia come produzione completamente autonoma, perché mai come oggi c’è fame di musica.

Serve infatti musica nei videogiochi; serve musica nei video promozionali aziendali; e serve musica per i podcast e per i video degli YouTuber, che vivono con l’incubo di trovarsi bannati o demonetizzati perché il sistema automatico di riconoscimento della musica di YouTube si è accorto che un brano che si sente in un loro video è sotto copyright. Serve insomma tanta musica, serve subito, e deve costare poco. E non ci sono compositori sufficienti.

Sono nate così aziende come Amper, Endel o Mubert, che permettono di selezionare un genere e una durata e poi modificare la bozza generata dall’intelligenza artificiale fino a ottenere il prodotto desiderato, che può essere poi utilizzato con una licenza che mette al riparo da contestazioni di copyright.

[CLIP: Mubert (ascoltabile solo nel podcast)]

Questo brano, per esempio, l’ho generato io con Mubert in mezzo minuto, senza alcuna competenza musicale: ho semplicemente scelto la categoria, il mood e la durata. Non sarà un capolavoro, ma se devo semplicemente metterlo come sottofondo per animare un video di compleanno su Youtube senza problemi di copyright è più che sufficiente.

C’è anche chi si spinge oltre, come appunto Endel, immaginando sottofondi musicali generati in tempo reale basandosi sulle condizioni meteo, sulle pulsazioni cardiache, per accompagnarci nell’attività fisica, nello studio e nel relax. Immaginate la vostra vita, ma con una colonna sonora continua, ritagliata su misura per voi.

Tutto questo non vuol dire che la musica creata dalle persone sia a rischio di estinzione e che assisteremo alla rivolta degli artisti musicali contro l’informatica, come negli anni Settanta i chitarristi se la prendevano con i sintetizzatori: anzi, delegare alle macchine questi sottofondi e questa musica strettamente commerciale permette agli artisti di esplorare nuove strade, magari usando proprio l’intelligenza artificiale per ottenerne suggerimenti che altrimenti non riceverebbero, un po’ come giocare a scacchi contro un computer aiuta a migliorare la propria tecnica di gioco oppure nello stesso modo in cui un programma di traduzione assistita toglie al traduttore il lavoro ripetitivo e gli permette di concentrarsi sulla fase creativa.

Flow Machines in funzione (contenuto non presente nel podcast)

Ma ci saranno anche nuove sfide legali: le leggi sul copyright non sono state concepite per un mondo nel quale esistono programmi capaci di comporre musica sintetica praticamente indistinguibile da quella dell’artista originale, un po’come i deepfake ma per l’audio.

Se qualcuno darà in pasto a un’intelligenza artificiale, per esempio, tutte le innumerevoli registrazioni della voce di Paul McCartney o di Billie Eilish, e ne tirerà fuori canzoni di successo senza usarne campioni ma semplicemente imitandone algoritmicamente il timbro e lo stile, i proprietari di quelle voci potranno rivendicare diritti o addirittura vietarne la diffusione? In fin dei conti, la stessa cosa avviene già oggi con le persone che imitano le celebrità.

E comunque avrà senso una rivendicazione del genere quando questi software saranno sui nostri computer o smartphone, per cui non ci sarà nessuna possibilità di controllo globale delle eventuali violazioni? Oppure ci troveremo con i controlli di copyright obbligati sui nostri smartphone, come avviene già per i lettori Blu-ray?

Ma questa è davvero un’altra storia, magari da raccontare con un sottofondo di musica folcloristica finlandese.

[CLIP: brano MIDI di musica folcloristica finlandese (ascoltabile solo nel podcast)]

Fonti aggiuntive:

Undiscovered Bach? No, a Computer Wrote It, New York Times (1997);
'There's a Wide-Open Horizon of Possibility.' Musicians Are Using AI to Create Otherwise Impossible New Songs, Time Magazine (2020);
Eerola, T., & Toiviainen, P. (2004), Suomen Kansan eSävelmät, Finnish Folk Song Database;
Nameshield (2018);
ISMIR (International Society for Music Information Retrieval);
Musical Metacreation e i suoi corpora;
Sounds of Science: Copyright Infringement in AI Music Generator Outputs (2021);
RWC Music Database: Music Genre Database and Musical Instrument Sound Database (2003);
EU/US Copyright Law and Implications on ML Training Data;
Generative AI and Intellectual Property Rights.

Cerca nel blog

2022/07/08

Podcast RSI - STORY: musica e intelligenza artificiale, amici o nemici?

Prologo