Cerca nel blog

2017/10/27

Google Home Mini: mettersi un microfono aperto in casa non è mai una buona idea

Il nuovo Home Mini di Google è un piccolo altoparlante “smart” che si collega a Internet e da lì ai servizi del grande motore di ricerca, consentendo di ascoltare musica, comandare dispositivi domotici, fare chiamate e chiedere informazioni tramite il suo microfono incorporato, che consente di dargli comandi vocali.

Un gingillo accattivante, ma come tutti gli oggetti dell’Internet delle Cose ha qualche problemino di privacy: il giornalista Artem Russakovskii ne ha ricevuto un esemplare da recensire e si è accorto che si attivava anche se non gli veniva chiesto di farlo, come il giornalista ha documentato in un video.

Esaminando i log del dispositivo si è accorto che per due giorni il Mini aveva registrato tutti i suoni che aveva rilevato, invece di limitarsi a registrare quelli pronunciati dal giornalista dopo la frase di attivazione “OK Google”.

In pratica, il Mini aveva ascoltato, registrato e trasmesso a Google tutto quello che era successo in casa.

Il giornalista ha contattato Google chiedendo chiarimenti e l‘azienda ha risposto che si era trattato di un malfunzionamento dovuto a un difetto fisico del pannello sensibile al tatto, quello che consente gli utenti di attivare la registrazione manualmente in alternativa alla pronuncia della frase di attivazione. Il difetto riguarda solo gli esemplari di prova per le recensioni e Google ha disattivato l’opzione di attivazione tramite il pannello tattile difettoso.

Ma il problema di fondo rimane: questo dispositivo di Google, come tutti gli altri del suo genere che rispondono ai comandi vocali (per esempio Echo di Amazon, certe “smart TV” e Siri), deve per forza avere un microfono costantemente attivo e in ascolto, in modo da poter reagire quando l‘utente pronuncia la frase di attivazione. Quando questo avviene, i suoni successivi devono essere registrati e inviati ai server della casa produttrice (in questo caso a quelli di Google), perché è lì che vengono analizzati, decifrati, eseguiti e custoditi: non viene effettuata alcuna elaborazione locale. In questo caso il difetto di fabbricazione ha fatto in modo che a Google arrivasse per errore tutto quello che veniva detto nell’abitazione.

Non so voi, ma l’idea di mettermi in casa, a spese mie, un microfono connesso a Internet che ascolta tutto quello che dico e capta anche i rumori delle altre attività che avvengono tra le mura domestiche continua a sembrarmi spettacolarmente stupida. Specialmente se si considera che tutto questo viene fatto semplicemente per evitare all’utente di dover premere un semplice pulsante di attivazione del microfono.

Giusto per capirci: considerate che Russakovskii aveva installato il suo Google Home Mini in bagno.


Fonte: Naked Security.

29 commenti:

Unknown ha detto...

Russakovskii ha installato il microfono in bagno perché convinto di poter pronunciare 'Ok Google' con i muscoli dell'ano? Viva la modestia!

Tommy the Biker ha detto...

Poteva andare peggio: poteva metterlo in camera da letto...

Comunque, io trovo che anche con l'attivazione manuale del microfono resti una cosa stupida. Di fatto stai parlando da solo. Magari chiamando il computer per nome, come fosse una persona vera (Siri, Cortana). Io la trovo una roba da matti, nel senso letterale del termine.

Che poi, fossero almeno dialoghi sopra i massimi sistemi. Di solito questi cosi si usano per evitare la tremenda fatica di aprire il browser e scrivere "meteo $città domani" o "orari cinema $film $città". 3-4 cavolo di parole, mica l'Iliade.

Boh. Io a volte mi sento veramente vecchio e fuori dal mondo. E la cosa tragica è che anagraficamente sono un millennial.

Fozzillo ha detto...

Smanettando su Android avevo messo il riconoscimento vocale in locale, in modo che in mancanza di collegamento ad internet il telefono fosse in grado di capire lo stesso.
Fatte delle prove con il telefono in modalità aereo riuscivo a dettare tranquillamente come con il riconoscimento fatto in rete.
Ma allora perché si ostinano a fare il riconoscimento presso i loro server? Gli piace proprio impicciarsi dei fatti nostri?

Paolo Attivissimo ha detto...

Tommy,

Di solito questi cosi si usano per evitare la tremenda fatica di aprire il browser e scrivere "meteo $città domani" o "orari cinema $film $città". 3-4 cavolo di parole, mica l'Iliade.

Considera che ci sono persone impedite, come me, che non vanno d'accordo con le tastiere touch microscopiche e che quindi trovano MOLTO comodo poter dire invece che digitare. Io poi non posso neanche usare il T9, perché scrivo sul telefono in due lingue.

Semplicemente ho impostato il telefono in modo che devo toccare l'icona del microfono prima che si attivi.

Scatola Grande ha detto...

Tommy,
un campo molto promettente nel futuro dell'informatica è quello delle reti neurali per il riconoscimento di immagini, foto e molto altro ma servono grandi quantità di dati.
Come fai a procurarteli?
Per le immagini ti inventi qualcosa come Google Photo. Non servono foto di qualità, servono foto di tutti i giorni per cui il servizio punta più sugli smartphone che sui PC e sulle foto realizzate con reflex. Vedi quindi la differenza con Flickr che invece è pensato per i fotografi amatoriali e non.
Per il riconoscimento vocale fai lo stesso, punti sullo smartphone ma pensi anche alla robotica domestica per cui tiri fuori TV e altri elettrodomestici che ti ascoltano o microfoni connessi.
E' un modo economico per procurarsi enormi basi di dati.
POi c'è anche l'altro mercato delle ricerche statistiche, per cui usi i dati dei social e di navigazione nei siti di tutti noi.
In altre parole noi forniamo gratis (ma anche pagando) i dati che saranno utilizzati per prodotti che ci venderanno, o venderanno ad aziende, in futuro.
L'effetto collaterale è che ci piazziamo delle possibili spie in casa.

Il Lupo della Luna ha detto...

La soluzione sarebbe semplice, ormai dsp non costano praticamente niente, quindi basterebbe mettere un chip in grado di riconoscere solo la frase di attivazione nel dispositivo. una volta che la sente poi tutto il resto lo manda a Google

Tommy the Biker ha detto...

@Paolo:
Ah guarda, ti capisco benissimo! Proprio per l'impeditaggine questo che ho ora è il mio primo "vero" telefono touch, prima ero fan dei touch&type.

Devo dire però che non tornerei indietro, anzi, mi trovo meglio ora. È stato sufficiente usare una app tastiera di terze parti, più personalizzabile rispetto a quella standard. Nel mio caso specifico, la scelta è caduta su SwiftKey.

Per risolvere il problema delle dita grosse, ad esempio, mi è stato sufficiente aumentare le dimensioni della tastiera virtuale e fare qualche altro ritocco nelle impostazioni a livello di layout.

Quanto al testo predittivo, è sufficiente installare i pacchetti delle lingue aggiuntive, dopodiché non occorre fare altro. Ad esempio, io uso italiano, inglese e francese; volendo potrei scrivere "aujourd'hui I went to Roma a mangiare bucatini" e il software predirrebbe tutto correttamente, senza dover ogni volta aprire le impostazioni e cambiare lingua.

Non solo: impara anche molto bene i nuovi termini, "capendo" il relativo contesto e fornendo previsioni adeguate. Ad esempio, se scrivo "ride" e nel testo ho usato altri termini tecnici in inglese mi suggerisce "ride-by-wire", se invece ho scritto altre parole in italiano suggerisce "ridere".

Il lato negativo è che ci va un poco di smanettamento delle impostazioni e di addestramento del software predittivo. Per me non è un problema: io sono un tipo che mal digerisce le soluzioni "preconfezionate", preferisco prendermi il mio tempo per avere un prodotto cucito su misura al 100%. Ma sono consapevole che ciò non valga per tutti.

Andrea F ha detto...

@Tommy
Io uso quei sistemi quando sono in auto per effettuare telefonate senza distogliere lo sguardo dalla strada. La mitica “chiama X al numero di cellulare con il vivavoce” non ha prezzo.

A M ha detto...

ci possono essere altri problemini... https://xkcd.com/1807/

A M ha detto...

in InterNet circola questa battuta.
"My wife asked me why I carry a gun around the house...
I told her, "Fear of the CIA".
She laughed.
I laughed.
The Amazon Echo laughed.
I shot the Amazon Echo. "

rico ha detto...

Non solo vorrei un pulsante di attivazione/disattivazione su questi microfoni, ma anche un LED che mi dica se l'ascolto è attivo o no. Un feedback visivo, insomma.

Uno che Passa ha detto...

Boh, potete davvero giurare di avere il controllo completo di microfono e cam del vostro smartphone?

Stefano Mancosu ha detto...

Cosa direbbe Orwell, sapendo che ci mettiamo in casa chi ci controlla, e pure pagando di tasca nostra?

Fenice ha detto...

OK Google, tira lo sciacquone e chiudi la tavoletta.

Unknown ha detto...

Non che si stia scoprendo chissà cosa in realtà... chiunque utilizzi Google Now viene ascoltato in modo continuativo e non esclusivamente dopo aver pronunciato "Ok Google". Quindi è sufficiente possedere uno smartphone con questo servizio abilitato...

Massimo Giaimo

Gianni Mello ha detto...

In 1984 di Orwell il Grande Fratello obbligava tutti a tenersi in casa sempre acceso un televisore Double Face attraverso il quale riempire le menti di propaganda e controllare in tempo reale tutto i sudditi. Noi siamo molto più evoluti il grande fratello corriamo a comperarlo tutti giulivi...

Fozzillo ha detto...

In passato ho provato il riconoscimento vocale in locale su android, è una opzione per quando non c'è campo, funzionava benissimo in modalità aereo (unico modo per farlo funzionare in locale).
Perché si ostinano tutti ad usare i propri server invece di far lavorare le periferiche locali che ormai sono potentissime?

Tommy the Biker ha detto...

@Scatola Grande
Comprendo il discorso che fai, ma se devo essere sincero la cosa mi fa venire in mente il popolare "cane di Mustafà" di Tomas Milan... :)

Gianluca ha detto...

Paolo, se scrivi in due lingue puoi provare una tastiera alternativa tipo Swiftkey. Io passo dall'inglese all'italiano senza problemi, e all'occorrenza con uno swipe scrivo anche in greco. Dalle un'occhiata ;)

Il Lupo della Luna ha detto...

Fozzillo, non è tanto una questione di potenza di calcolo, quanto una questione di dimensioni del database delle parole. Sì cioè, dei fonemi se insomma vabbè... Di quello che usano. In compenso e nonostante tutto, Google ogni tanto non capisce i punti e le virgole e te lo trascrive in parole.

Scatola Grande ha detto...

Tommy.
io di quegli oggetti in casa non ne metto. Raccolgano le loro informazioni con altri volontari paganti! Non fosse altro che ogni tanto le connessioni cadono e tutti questi furbi oggetti cessano di funzionare.

Kaizenware ha detto...

Ciao Paolo
ho tenuto 3 lezioni di IOT all'università. La parte di "business" l'ho lasciata fare a quelli con l'MBA, io mi sono specializzato proprio a parlare di queste cose, dei temi di privacy e sicurezza di questi device. E il tema è stato ampiamente "caldo", una volta sollevato. Però mi chiedo e ho chiesto a loro: ma possiamo fermarla, questa tecnologia? _oggi_ ci sono evidenti limiti di privacy e sicurezza ma _domani_ che succederà? Mi chiedo, quando è nata l'automobile, la gente non si è scatenata contro i problemi di "sicurezza" delle auto rispetto alle carrozze? Forse si, forse però ci siamo adattati e abbiamo visto che i benefici superavano ampiamente i limiti. Domanda onesta eh, sono anche io molto perplesso e NON ho intenzione di avere device connessi in casa che per ora hanno use case estremamente limitati.

Diego Laurenti ha detto...

Dopo i D-Pad di star trek che si sono materializzati veramente sottoforma di tablet ed E-Book readers, questa è la prossima frontiera, per sentirsi veramente come Picard quando ordinava al "Computer!" di effettuare le più svariate cose. Ormai ci siamo quasi, con qualche aggiustamento.
Asppetto poi i replicatori, il teletrasporto e, perchè no, il motore a curvatura! :)

pgc ha detto...
Questo commento è stato eliminato dall'autore.
Berto ha detto...

Uhm... quindi devo smettere di parlare da solo in auto...

Tommy the Biker ha detto...

@Scatola Grande
Hai detto una bellissima verità: le connessioni cadono. E io aggiungo: capita anche che siano lente. Spaventosamente lente.

Non voglio dilungarmi troppo, quindi stringo: fino al dicembre 2012 (DUEMILADODICI) avevo una pennetta 128 kbps a traffico; poi sono passato per ADSL 2 mega, 7 mega, 20 mega, tutti valori altamente teorici (con la 20 mega dichiarati, arrivavo a 7 effettivi in download in piena notte). E la stabilità della connessione è sempre stata altalenante. NB: vivo in Italia, non in Burundi.

Quindi, anche ora che ho la fibra, ho mantenuto una certa forma mentis. Ergo, un dispositivo che per funzionare richiede una connessione ad internet h24, perché sennò diventa solo un costoso fermacarte... per me, è semplicemente stupido. O per meglio dire, mal pensato.

E taccio sul cosa penso della gente che possiede sistemi d'allarme, porte e cose del genere che richiedono una connessione ad internet h24...

Reiuky ha detto...

Un po' fuori tema, ma voi che usate questo servizio, vi funziona?
Insomma, la mia conversazione tipica è
"Ok google"
niente
"OCCHEI GOOOGLE!"
niente
Parcheggio l'auto e premo il tasto di attivazione
"Chiama Graziella"
"Ecco gli orari orari della farmacia più vicina."
"No, chiama graziella"
"Navigazione per ponte la trave milano impostata"

E così via finché non mi decido a digitare il numero.

Tommy the Biker ha detto...

@Reiuky:
No, ho avuto esperienze identiche alle tue con circa ogni dispositivo basato sul riconoscimento vocale. Dalle robe basilari tipo "telefona a", a quelle più complesse tipo traduttori automatici, ce ne fosse uno che funziona come si deve.

La cosa assurda è che le imprecazioni (che volano copiose ogni qual volta un dispositivo non funziona come dovrebbe e so di non averne colpa) vengono sempre captate in modo cristallino. Non sto scherzando, eh.

Proprio non me ne capacito...

Scatola Grande ha detto...

@Tommy the Biker,
il riconoscimento vocale c'è da un po' di tempo insieme al riconoscimento della scrittura.
Ancora non è perfetto ma mi sembra sia migliorato. Purtroppo hanno portato il calcolo all'esterno, cosa curiosa visto che dichiarano di usare reti neurali che sono divoratrici di potenza di calcolo durante l'addestramento ma non nel normale uso.
Ho avuto un Nokia 5220 che aveva un rudimentale comando vocale per i soli nomi della rubrica. Aveva una CPU 231Mhz Single-Core ARM9 con 32Mb di RAM e ce la faceva. Oggi lo smartphone quadcore 1GHz con 2Gb sembra non sia in grado di farlo. Alla faccia della robustezza dei Nokia è defunto nel senso che si accende per pochi secondi e poi si spegne e non è la batteria.