Cerca nel blog

2014/08/08

Si può ricostruire l’audio di una ripresa video muta

Un gruppo di ricercatori dei MIT, della Adobe e della Microsoft è riuscito a ottenere un risultato che a prima vista sembra magico: ricostruire l'audio di una ripresa video priva di sonoro.

La tecnica è molto elegante: le onde sonore presenti nella scena che viene ripresa fanno vibrare gli oggetti inquadrati, ma normalmente questa vibrazione è troppo piccola e rapida per essere vista. Però se si usa una telecamera che riprende 20.000 fotogrammi al secondo (contro i 25, 30 o 60 di una ripresa normale) e si elabora il video con un sistema molto potente, anche uno spostamento di un millesimo di pixel diventa visibile e quindi è possibile usare i piccolissimi spostamenti degli oggetti presenti in una scena per ricostruire l'audio della scena stessa.

I ricercatori hanno iniziato estraendo musica e voci da video ripresi usando questa telecamera ad altissima cadenza di ripresa. Da un'immagine di una cuffietta che riproduceva una canzone sono riusciti a ricostruire e identificare il brano (Under Pressure dei Queen). La dimostrazione è andata benissimo, ma il requisito di una telecamera di questo genere limitava l'utilità pratica di questa tecnica ad alcuni casi particolari di sorveglianza o spionaggio.

Poi hanno avuto un'intuizione brillante: normalmente ogni fotogramma di una ripresa video o di un'immagine digitale è in realtà composto da tante linee che vengono acquisite in istanti leggermente differenti (circa 16 microsecondi fra una riga e la successiva, nella videocamera commerciale usata dai ricercatori). Questo è il motivo per cui le foto digitali di oggetti in rapido movimento, per esempio una fila di lampioni ripresa da un'auto in corsa, a volte hanno delle curiose deformazioni.

Ma allora, se si analizza ciascuna linea dell'immagine come se fosse un “fotogramma” separato, si ha una cadenza di ripresa altissima anche con una videocamera normale e questo permette di rilevare le vibrazioni sonore degli oggetti ripresi senza ricorrere a tecnologie ultrasofisticate. Infatti con questa tecnica i ricercatori hanno ripreso a 60 fotogrammi al secondo un sacchetto di patatine, un oggetto particolarmente adatto perché sottile e quindi in grado di vibrare bene a varie frequenze, e hanno ricostruito il sonoro circostante. La ricerca è presentata in un video e in un articolo, The Visual Microphone: Passive Recovery of Sound from Video, disponibile per lo scaricamento.

Morale della storia: attenti a quello che dite quando mangiate patatine.


Nessun commento: