Cerca nel blog

2023/04/27

Podcast RSI - Traduzioni automatiche grottesche di #Opentomeraviglia, malware che usa ChatGPT, nuovo caos delle spunte blu su Twitter

logo del Disinformatico

È disponibile subito il podcast di oggi de Il Disinformatico della Radiotelevisione Svizzera, scritto, montato e condotto dal sottoscritto: lo trovate presso www.rsi.ch/ildisinformatico (link diretto) e qui sotto.

Le puntate del Disinformatico sono ascoltabili anche tramite feed RSS, iTunes, Google Podcasts e Spotify.

Buon ascolto, e se vi interessano il testo di accompagnamento e i link alle fonti di questa puntata, sono qui sotto.

---

[CLIP: Venere23 dallo spot Opentomeraviglia]

Il debutto disastroso della campagna Open to Meraviglia del Ministero del Turismo italiano ha generato ilarità internazionale per il suo uso di spezzoni video girati in realtà in Slovenia e soprattutto per le sue grottesche traduzioni in tedesco dei nomi di molte località, da Camerino che è diventato Garderobe fino a Sutera, in Sicilia, che è stato tradotto, per così dire, con Homosexuell. Ma come sono possibili errori del genere?

Se state sospettando che c’entri un uso malaccorto dell’intelligenza artificiale, siete sulla buona strada, e in questa storia emergono nozioni di traduzione assistita utilissime da conoscere, fra una risata e l’altra, per evitare figuracce analoghe.

Benvenuti alla puntata del 28 aprile 2023 del Disinformatico, il podcast della Radiotelevisione Svizzera dedicato alle notizie e alle storie strane dell’informatica. Io, come consueto, sono Paolo Attivissimo, e in questa puntata vi racconterò anche le tante novità della saga di Twitter, con la scomparsa e ricomparsa delle celebri spunte blu, e lo strano caso di un malware che colpisce anche gli utenti di computer Apple e lo fa usando come esca ChatGPT.

[SIGLA di apertura]

Open to Meraviglia

Si ride molto, in Italia e fuori Italia (Guardian, Time, CNN, Der Standard, Jerusalem Post, ABC.net.au, Reuters, Corriere del Ticino, La Regione), per l’incredibile leggerezza informatica e linguistica con la quale è stata gestita la campagna internazionale di promozione turistica Open to Meraviglia del Ministero del Turismo italiano, annunciata il 20 aprile scorso (ANSA). Il debutto della campagna è stato deriso estesamente nei media nazionali e sui social network per varie ragioni.

Fonte: CNN.

La prima ragione è che il nome di account social Venereitalia23, citato dalla campagna, è stato acquisito dagli organizzatori soltanto su Instagram e LinkedIn, nonostante il video promozionale parlasse chiaramente del nome Venereitalia23 riferito a tutti i social network.

[CLIP: “su Instagram, Linkedin e tutti i social sarò Venereitalia23”]

Ma su Twitter, YouTube e Facebook il nome è invece rimasto libero, contrariamente alle regole elementari di protezione online dei marchi o brand protection, e così qualcuno esterno alla campagna promozionale ha attivato degli account di nome Venereitalia23 e ora li sta usando per prendere in giro gli organizzatori per la loro imprevidenza.

La seconda ragione di questa ilarità è che gli organizzatori della campagna si sono dimenticati anche di registrarsi il nome di dominio italiano dello slogan, ossia Opentomeraviglia.it. Cosa che invece ha fatto una società di marketing fiorentina, col risultato che chi digita Opentomeraviglia.it ci trova, al posto della campagna ministeriale, il sito della società di marketing. Una mossa autopromozionale brillante.

[CLIP: “Che cos’è il genio?” dal film Amici Miei]

La terza ragione di ridicolo è la scoperta che alcune delle immagini del video ufficiale che dovrebbero raffigurare le bellezze dell’Italia sono in realtà state girate fuori Italia, per la precisione in Slovenia. Il video promozionale è stato ritirato da YouTube, ma i social sono ormai pieni di screenshot che documentano inesorabilmente la gaffe.

Ma la cosa che ha suscitato la massima ilarità è che sul sito ufficiale della campagna Open to Meraviglia, ossia Italia.it, nelle versioni in tedesco delle pagine dedicate alle varie località i nomi di queste località sono stati spesso tradotti letteralmente. Brindisi è diventata Toast, Fermo si è tramutata in Stillstand, Prato è stata tradotta con Rasen, Cento è diventata Hundert, Camerino è stata resa con Garderobe, Chiusi è stata rinominata Geschlossen, Cuneo è diventata Keil, Potenza è stata tradotta con Leistung, Biella è diventata Pleuelstange, al posto di Limone Piemonte è stato scritto Zitrone Piemont, e così via.

Non appena si è diffusa la notizia, le pagine in tedesco sono state rimosse, ma anche in questo caso sono state salvate in tempo delle copie. Se vi interessa, la lista completa degli strafalcioni è su Disinformatico.info. Fortunatamente, Lecco, Troia e Bellano non figurano tra le traduzioni letterali in tedesco.

Lasciando da parte un momento, se ci riuscite, l’aspetto comico, è logico chiedersi come sia stato possibile commettere errori madornali come questi, che nessun traduttore, per quanto dilettante, farebbe mai. E soprattutto viene da chiederselo per una particolare categoria di queste traduzioni errate, ossia quelle non letterali. Infatti la località di Pescarenico è diventata Pfirsich, ossia “pesca”, Rivisondoli è stato tradotto con Revisionen, e soprattutto Sutera, in Sicilia, è stata addirittura tradotta, si fa per dire, con Homosexuell.

Nemmeno una persona o una macchina che traducesse semplicemente consultando un glossario bilingue farebbe errori del genere. La colpa, come avete probabilmente già sospettato, è di chi ha fatto un uso sconsiderato dell’intelligenza artificiale applicata alla traduzione, senza fare alcun controllo di qualità umano. Ce lo spiega Licia Corbolante, una terminologa specializzata in gestione e ricerca terminologica, comunicazione interculturale e localizzazione, che scrive sul blog Terminologiaetc.it e su Twitter con l’account @terminologia.

[CLIP: Voce di Licia Corbolante, rimontata per brevità]

I sistemi di traduzione automatica hanno ormai raggiunto livelli ottimi, con risultati che sono spesso indistinguibili dai testi prodotti da umani, però ogni tanto capitano degli incidenti di percorso che sono davvero clamorosi. Brindisi, Cuneo, Biella, Camerino, Potenza fanno parte di una categoria particolare di nomi che hanno un significato diverso a seconda che vengano scritti con l'iniziale minuscola o maiuscola. Per noi umani è facile distinguerli proprio grazie alla grafia e al contesto. In teoria anche la traduzione automatica non dovrebbe avere troppi problemi, però non sempre è così, soprattutto se i nomi sono avulsi dal contesto. E infatti non credo sia un caso che nella traduzione automatica dei toponimi in tedesco siamo stati sbagliati quelli nei titoli, quindi singole parole isolate, ma non sono stati sbagliati quelli all'interno dei testi.

In altre parole, il software di traduzione ha sbagliato a tradurre per esempio il titolo Potenza perché le parole iniziali, nei titoli, hanno sempre la lettera iniziale maiuscola [ho detto “minuscola” nel podcast, dannazione], anche quando non sono toponimi, e quindi l’intelligenza artificiale non aveva nessun modo per riconoscere che si trattasse di un nome di località e ha scelto il significato più probabile, ossia potenza come sostantivo. Noi umani, invece, capiamo che si tratta di un toponimo in base al contesto: sappiamo che stiamo leggendo un titolo di una pagina dedicata a una località. I traduttori automatici, per ora, non sono capaci di farlo.

Ma questo non basta per spiegare la misteriosa trasformazione di Rivisondoli in Revisionen. Rivisondoli è solo un nome di località: se scritto in minuscolo non ha un altro significato. Però Licia Corbolante descrive una particolarità poco conosciuta di questi software che spiega la loro bizzarra logica.

[CLIP: Voce di Licia Corbolante, rimontata per brevità]

Innanzitutto va sottolineato che i sistemi di traduzione automatica neurale, che sono quelli prevalenti, non hanno idea di che cosa stanno traducendo. Però, grazie all'apprendimento automatico, identificano delle regolarità statistiche che poi usano per predire le sequenze di parole più probabili per produrre poi i testi tradotti. Non operano a livello di parole come le intendiamo noi, ma invece di unità più piccole, che sono formate da sequenze di caratteri. Però ovviamente non è un sistema che funziona sempre e ci sono dei problemi noti di questi metodi. Ad esempio succede che vengano usate parole che assomigliano a parole della lingua 1 che però sono inesistenti nella lingua 2. Rivisondoli, Pescarenico, Sorradile, ecco: la traduzione automatica non ha mai incontrato prima questi nomi, li trova isolati in un titolo e quindi possiamo ipotizzare che li abbia gestiti come farebbe con dei nomi comuni, interpretandoli, tra virgolette, in base alla somiglianza con lessico già noto e così Rivisondoli è diventato in tedesco ‘revisioni’.

I software di traduzione automatica, insomma, sono degli ottimi assistenti, ma i loro limiti vanno ben capiti e gestiti; non ragionano come noi, quando non riconoscono una parola si inventano la sua traduzione, e quindi è pericolosissimo usarli alla cieca senza la supervisione attenta di un traduttore umano. Eppure questo è un comportamento sempre più diffuso, man mano che le aziende cercano di ridurre i costi facendo a meno della traduzione professionale.

Ma come ha dimostrato il caso di Open to Meraviglia, è una forma di risparmio che può costare molto caro.

ChatGPT come esca per malware

L’enorme popolarità di ChatGPT non è passata inosservata anche nel mondo del crimine informatico, che si è subito dato da fare per creare degli attacchi basati su questa tecnologia di intelligenza artificiale. O meglio, basati sul desiderio di moltissimi utenti di accedere a questa tecnologia.

I truffatori hanno infatti investito in campagne pubblicitarie su Facebook e Google per far comparire agli utenti la pubblicità di cosiddette estensioni per browser, ossia delle specie di “app” che si possono scaricare e aggiungere per esempio a Chrome per dare maggiori funzionalità a questo programma di navigazione nel web. 

Fonte: The Hacker News.

Chi cercava in Google le parole “Chat GPT 4”, per esempio, poteva veder comparire fra i primi risultati la proposta pubblicitaria di installare una fantomatica estensione “ChatGPT for Google” che sembrava promettere accesso gratuito alla versione 4 di ChatGPT, che è a pagamento, a differenza della versione 3.5, che non ha canone mensile ma è molto meno potente.

Questa estensione, una volta installata, intercettava i cookie del profilo Facebook della vittima e li inviava ai criminali. Questo permetteva loro di entrare nel profilo senza doverne conoscere il nome o la password e consentiva anche di scavalcare l’autenticazione a due fattori.

La società di sicurezza informatica Intego spiega infatti che Facebook, come la maggior parte dei siti web, si affida a dei cookie che mantengono aperta la sessione di accesso, in modo da poter tracciare sempre le attività degli utenti anche al di fuori di Facebook. Il guaio è che se questi cookie finiscono nelle mani di qualcun altro e vengono copiati su un computer, quel computer avrà accesso al profilo Facebook esattamente come se fosse l’utente autentico.

I criminali che rubavano questi cookie potevano così prendere facilmente il controllo dei profili Facebook delle vittime che installavano queste estensioni false nella speranza di avere ChatGPT 4 gratis; potevano poi cambiare le password di questi account e usarli per campagne di spam oppure per chiedere un riscatto ai proprietari originali.

Un buon antivirus avrebbe riconosciuto queste estensioni ruba-cookie, ma molti utenti ancora oggi non usano antivirus aggiornati o non li usano del tutto, specialmente se hanno computer Apple, perché persiste ancora il mito che non esistano virus per i computer di questa marca. 

Per difendersi da questa trappola astuta è insomma sufficiente installare un antivirus di una marca conosciuta e tenerlo aggiornato, anche sui computer Apple, ma soprattutto occorre avere comportamenti prudenti: non bisogna installare estensioni che promettano cose troppo belle per essere vere. In altre parole, se vi serve ChatGPT, non cercate scorciatoie a scrocco.

Twitter, spariscono le spunte blu (o quasi); API a pagamento

Ci sono state grossissime novità su Twitter. Il 20 aprile scorso, come preannunciato dal social network, sono state rimosse tutte le spunte blu conferite prima dell’acquisizione di Twitter da parte di Elon Musk, le cosiddette spunte legacy, quelle che effettivamente autenticavano un utente, ponendo fine al periodo di confusione precedente, nel quale non c’era modo di capire se la spunta blu indicasse un utente autenticato oppure semplicemente un utente pagante.

Ora le spunte blu indicano semplicemente che un utente paga un canone mensile e non c’è alcuna autenticazione significativa, e questo è un cambiamento di significato importantissimo da tenere presente, soprattutto per chi frequenta poco Twitter, per evitare di cadere nella trappola di pensare, come si è fatto per un decennio, che l’identità di un account che ha la spunta colorata sia sicuramente quella indicata dal nome. 

Infatti una persona ha prontamente cambiato il proprio nome utente in “Disney Junior UK” e Twitter gli ha dato addirittura la spunta oro, che teoricamente è riservata agli account autenticati delle organizzazioni. L’account fasullo è riuscito ad accumulare 4700 follower prima che Twitter si accorgesse dell’errore e lo sospendesse. 

L’account fasullo. Fonte: @DoomerVon.

Elon Musk ha inoltre annunciato il 25 aprile che chi non paga il canone di Twitter, circa 100 dollari l’anno, perderà visibilità. Ma moltissimi utenti di Twitter non hanno aderito alla proposta di Elon Musk di pagare questo canone. Secondo il ricercatore informatico Travis Brown, gli utenti paganti sono attualmente circa 750.000 su circa 254 milioni di utenti giornalieri di Twitter, ossia lo 0,3%. Twitter non ha ancora rilasciato dati ufficiali sul numero di utenti a pagamento.

Anche molte celebrità hanno deciso che non vogliono la spunta blu, come ho segnalato nella puntata del 6 aprile 2023 del Disinformatico, ovviamente non per taccagneria ma per principio, perché non autentica più nulla, e così Elon Musk ha deciso di pagare personalmente il canone ad alcune di queste celebrità.

Inizialmente Musk ha dichiarato che avrebbe pagato solo la spunta blu dello scrittore Stephen King, dell’attore William Shatner e del cestista LeBron James, ma poi è emerso che moltissimi dei quasi diecimila account che hanno più di un milione di follower hanno ricevuto gratuitamente la spunta blu, in alcuni casi contro la loro volontà. È successo a Beyoncé, Victoria Beckham, Neil Gaiman, Donald Trump, ma stranamente non a Ryan Reynolds (che pure ha 21 milioni di follower).

La confusione è insomma grande e i continui cambiamenti e dietrofront di Musk non aiutano: i suoi piani di risanare Twitter convincendo tanti utenti a pagare un canone non sono stati accolti positivamente dalla massa dei fruitori di questo social network. A questo sfavore hanno probabilmente contribuito alcune sue decisioni controverse, come la riattivazione di 67.000 account di estremisti e disinformatori seriali che erano stati sospesi dalla gestione precedente di Twitter o la rimozione dal regolamento della sezione che vietava il misgendering e il deadnaming, che sono delle forme di abuso rivolte specificamente alle persone LGBTQ e consistono nel descriverle o rivolgersi a loro usando intenzionalmente il genere sbagliato o, rispettivamente, il loro nome pre-transizione, con l’intento preciso di ferirle. Queste scelte contribuiscono a una sensazione di insicurezza avvertita da molti utenti.

C’è anche un’altra novità, apparentemente molto tecnica, che però ha effetti sugli utenti comuni: la disattivazione dell’accesso gratuito alla API di Twitter, ossia alla Application Programming Interface, che, semplificando, è un linguaggio comune che permette ai programmi di parlarsi tra loro e consente per esempio di creare programmi che mandino automaticamente istruzioni a Twitter per pubblicare un post o rispondere con dei dati a un tweet.

Moltissimi servizi amatoriali e accademici usavano questa tecnica per diffondere automaticamente e tempestivamente su Twitter le proprie informazioni, raggiungendo così un vasto bacino di utenti. Lo facevano anche servizi essenziali come gli avvisi meteo e gli allarmi per gli tsunami, e lo faceva fino a ieri (27 aprile) anche Abuse.ch, un servizio di volontariato svizzero per la segnalazione di malware, botnet e altre minacce informatiche. Ora non più, perché Musk chiede un canone per questo accesso alla API, e i prezzi sono insostenibili per molte organizzazioni e persino per Microsoft, che ha annunciato che la sua piattaforma di gestione delle inserzioni pubblicitarie, Microsoft Advertising, avrebbe cessato il supporto all’integrazione con Twitter a partire dal 25 aprile, perché ora Microsoft dovrebbe pagare da 42.000 a 210.000 dollari al mese per fare quello che prima faceva senza questo costo.

Fonte: @abuse_ch.

Il risultato di tutti questi cambiamenti, per noi utenti comuni, è un Twitter che offre meno autenticazione, meno servizi, meno protezioni e meno contenuti rispetto al passato. Per qualche misteriosa ragione, a distanza di un anno dal suo caotico e costosissimo acquisto di Twitter, Elon Musk sembra non capire che l'essenza del valore di qualunque social network in ultima analisi sta negli utenti e nei loro contenuti. E così intanto i rivali Mastodon e Bluesky accumulano utenti in fuga.

Nessun commento: