skip to main | skip to sidebar
9 commenti

Si può ricostruire l’audio di una ripresa video muta

Un gruppo di ricercatori dei MIT, della Adobe e della Microsoft è riuscito a ottenere un risultato che a prima vista sembra magico: ricostruire l'audio di una ripresa video priva di sonoro.

La tecnica è molto elegante: le onde sonore presenti nella scena che viene ripresa fanno vibrare gli oggetti inquadrati, ma normalmente questa vibrazione è troppo piccola e rapida per essere vista. Però se si usa una telecamera che riprende 20.000 fotogrammi al secondo (contro i 25, 30 o 60 di una ripresa normale) e si elabora il video con un sistema molto potente, anche uno spostamento di un millesimo di pixel diventa visibile e quindi è possibile usare i piccolissimi spostamenti degli oggetti presenti in una scena per ricostruire l'audio della scena stessa.

I ricercatori hanno iniziato estraendo musica e voci da video ripresi usando questa telecamera ad altissima cadenza di ripresa. Da un'immagine di una cuffietta che riproduceva una canzone sono riusciti a ricostruire e identificare il brano (Under Pressure dei Queen). La dimostrazione è andata benissimo, ma il requisito di una telecamera di questo genere limitava l'utilità pratica di questa tecnica ad alcuni casi particolari di sorveglianza o spionaggio.

Poi hanno avuto un'intuizione brillante: normalmente ogni fotogramma di una ripresa video o di un'immagine digitale è in realtà composto da tante linee che vengono acquisite in istanti leggermente differenti (circa 16 microsecondi fra una riga e la successiva, nella videocamera commerciale usata dai ricercatori). Questo è il motivo per cui le foto digitali di oggetti in rapido movimento, per esempio una fila di lampioni ripresa da un'auto in corsa, a volte hanno delle curiose deformazioni.

Ma allora, se si analizza ciascuna linea dell'immagine come se fosse un “fotogramma” separato, si ha una cadenza di ripresa altissima anche con una videocamera normale e questo permette di rilevare le vibrazioni sonore degli oggetti ripresi senza ricorrere a tecnologie ultrasofisticate. Infatti con questa tecnica i ricercatori hanno ripreso a 60 fotogrammi al secondo un sacchetto di patatine, un oggetto particolarmente adatto perché sottile e quindi in grado di vibrare bene a varie frequenze, e hanno ricostruito il sonoro circostante. La ricerca è presentata in un video e in un articolo, The Visual Microphone: Passive Recovery of Sound from Video, disponibile per lo scaricamento.

Morale della storia: attenti a quello che dite quando mangiate patatine.


Invia un commento
I commenti non appaiono subito, devono essere tutti approvati da un moderatore. Lo so, è scomodo, ma è necessario per tenere lontani scocciatori, spammer, troll e stupidi: siate civili e verrete pubblicati qualunque sia la vostra opinione; gli incivili di qualsiasi orientamento non verranno pubblicati, se non per mostrare il loro squallore.
Inviando un commento date il vostro consenso alla sua pubblicazione, qui o altrove.
Maggiori informazioni riguardanti regole e utilizzo dei commenti sono reperibili nella sezione apposita.
NOTA BENE. L'area sottostante per l'invio dei commenti non è contenuta in questa pagina ma è un iframe, cioè una finestra su una pagina di Blogger esterna a questo blog. Ciò significa che dovete assicurarvi che non venga bloccata da estensioni del vostro browser (tipo quelle che eliminano le pubblicità) e/o da altri programmi di protezione antimalware (tipo Kaspersky). Inoltre è necessario che sia permesso accettare i cookie da terze parti (informativa sulla privacy a riguardo).
Commenti
Commenti (9)
Le patatine fanno male... :-)
Paolo scripsit:
"anche uno spostamento di un millesimo di pixel diventa visibile"

ed in effetti è quello che si dice nel video collegato ma la cosa mi sfugge molto: se lo spostamento è sensibilmente minore del pixel come può essere percepito dalla videocamera se non in condizioni molto particolari quali ad esempio un contrasto molto forte con lo sfondo od un illuminazione perfettamente costante?

E' in realtà un video virale della San Carlo (tra l'altro noto membro del NWO)? ;-)
E' fantastico ma a differenza dei microfoni laser, mi sembra un risultato riproducibile solo in particolari condizioni, sicuramente meno pratiche da quanto viene fatto vedere nel video (una pianta illuminata dal sole che fa pensare che sia all'esterno, un sacchetto di patatine per terra in un ambiente che sembra un grande fabbricato); dato che si parla di analizzare movimenti davvero microscopici, credo che sia necessaria una totale assenza di movimenti dell'aria nell'ambiente circostante che possano influenzare la stabilità dell'oggetto che fa da microfono, quindi niente aria condizionata, ventilatori o grandi ambienti che possano avere differenze di temperatura tali da generare moti convettivi. Inoltre non ho trovato riferimenti al livello sonoro al quale sono stati emessi i suoni oggetto dell'esperimento (fino a quale pressione sonora i suoni sono recuperabili? 100dB? 60dB? Boh!)
Nemmeno io capisco come possa funzionare con vibrazioni pari a meno di mezzo pixel, che verrebbe arrotondato al nessun pixel. O forse si avrebbe comunque una variazione di colore e/o di luminosità del pixel che può essere interpretata come movimento? Non mi è chiaro, anche se la ricerca sembra seria. Sicuramente è a dir poco affascinante... se non inquietante.
Quando ho visto la ripresa fatta dal di fuori della finestra ho storto il naso. Dato che le finestre sono ottime membrane per microfono (i microfoni laser sfruttano proprio questo principio) come possono essere sicuri di aver letto le vibrazioni dell'oggetto e non le distorsioni indotte dalla "lente vibrante" che è la finestra nel mezzo?
@bischero: non è necessaria una totale assenza di movimenti dell'aria perché sarebbe rumore a bassa frequenza che è facile da filtrare.
come possono essere sicuri di aver letto le vibrazioni dell'oggetto e non le distorsioni indotte dalla "lente vibrante" che è la finestra nel mezzo?

Forse perché la vibrazione di un oggetto trasparente e piatto "distorce" poco o nulla la ripresa delle vibrazioni dell'oggetto? Penso che essendo comunque la lastra di vetro verticale e di spessore omogeneo ovvero non una lente con spessore variabile, l'effetto che potrebbe avere sia trascurabile.

Un movimento "avanti-indietro" di una lastra trasparente non dovrebbe incidere quanto quello di una lente vera e propria. Non essendo una lente (concava o convessa) ma una lastra di spessore invariabile che vibra in senso perpendicolare alla luce catturata dalla fotocamera, essa rimane comunque in linea con l'obiettivo.

Diverso sarebbe se ci fosse una cacca di mosca attaccata ad essa. Si potrebbe monitorare direttamente quella, ammesso e non concesso che si riesca a metterla a fuoco e ad avere abbastanza risoluzione da capire quando la cacca si "allontana" diventando impercettibilmente più piccola e quando si "avvicina" ingrandendosi.

Credo rimanga più semplice puntare la telecamera direttamente sugli oggetti.

E' comunque una tecnica affascinante. Vi immaginate ridare il sonoro ai vecchi film muti?
Beh non è rigorosamente vero che vibrazioni inferiori a nessun pixel vengono arrotondate a zero pixel. Andando a considerare i livelli di colore si può fare quella che viene chiamata una analisi sub-pixel. Ad esempio, ci sono software che analizzando la luce delle stelle possono calcolare la posizione dell'astro con precisione inferiore a quella dei pixel (in fondo la luce della stella colpisce il sensore disegnando un cerchio, i cui pixel che stanno sulla circonferenza avranno dei livelli di luminosità intermedi a seconda della percentuale di superficie che è interna al cerchio, quindi il software può disegnare la circonferenza esatta che corrisponde a quei toni, e infine calcolare il centro della circonferenza, il tutto senza essere limitata dalla risoluzione del sensore).

In questo caso, anche se nessun pixel entra o esce completamente dalla sagoma dell'oggetto che vibra, è sufficiente che la vibrazione sia sufficientemente ampia da far cambiare luminosità o tono ai pixel che stanno sul bordo.
Nessuno ha colto la citazione di "Mary had a little lamb?"