Cerca nel blog

4. Ricerca e recupero di documenti rimossi, modificati o nascosti; ricerca storica

Questo capitolo fa parte della guida Motori di ricerca: uso avanzato per giornalisti, debunker e investigatori digitali di Paolo Attivissimo. Ultimo aggiornamento: 2022/02/13. Distribuzione libera sotto licenza Creative Commons Attribuzione - Non commerciale - Non opere derivate 2.5 Italia. I dettagli legali di questa licenza di distribuzione sono disponibili in italiano qui. Segnalate eventuali errori, link obsoleti, aggiunte o aggiornamenti scrivendo a paolo.attivissimo@gmail.com.

Link breve all’indice: tinyurl.com/guida-motori-ricerca.

_____

Se un documento o una pagina Web precedentemente pubblicati su un sito sono stati poi rimossi o modificati, oppure sono inaccessibili a causa di un numero eccessivo di visitatori, spesso è possibile recuperarne lo stesso il contenuto utilizzando le copie cache e le copie archiviate.

4.1. Copia cache di una pagina o di un sito in Google

Quando Google esplora il Web per indicizzarlo, registra nei propri server una copia di ogni singola pagina esplorata. Questa copia si chiama copia cache di Google ed è consultabile in due modi:

  1. digitando in Google la parola cache: seguita (senza spazi) dal nome del sito o dall’indirizzo della pagina specifica desiderata;
  2. cliccando sul triangolino presente accanto a un normale risultato di ricerca, in modo da far comparire l’opzione copia cache.

La copia cache è utile perché mostra com’era una data pagina quando Google l’ha visitata e quindi costituisce una sorta di “eco” temporanea, che persiste anche se la pagina originale viene cambiata o addirittura rimossa. Questo consente di andare indietro nel tempo a vedere, per esempio, qual era il contenuto di un sito oscurato, sequestrato, alterato oppure rimosso.

Questa copia è utile anche quando desideriamo esplorare un sito senza lasciare traccia del nostro interessamento. Ogni normale visita a un sito, infatti, lascia all’amministratore del sito una serie di informazioni tecniche che permettono di identificare il visitatore.

In alcuni casi può essere sconsigliabile, per esempio, che un giornalista sfogli, da un computer connesso alla rete della redazione, un sito sul quale sta indagando: i titolari del sito potrebbero accorgersi della visita e dedurne che è in corso un’inchiesta.

4.2. Copie archiviate

Oltre alla copia cache di Google ci possono essere altre copie archiviate presso altri siti:

Coralcdn.org e Archive.org sono siti che collezionano automaticamente una copia delle pagine Web di Internet (temporaneamente nel caso di Coralcdn.org, permanentemente nel caso di Archive.org), mentre Archive.is archivia in modo permanente solo le pagine che gli vengono richieste manualmente e fornisce un link breve utile per citare una copia permanente di un contenuto online.

Tipicamente:

  • la copia più recente è quella nella cache di Google;
  • quella di Coral è leggermente meno recente;
  • quella di Archive.is può risalire anche a vari anni fa;
  • e infine le copie multiple custodite presso Archive.org possono andare indietro nel tempo anche fino agli anni Novanta del secolo scorso.
Esempio: recupero del contenuto di un sito sottoposto a sequestro

Per ottenere un elenco dei siti sequestrati dalle autorità italiane si può usare l’operatore intitle di Google per cercare tutti i siti che hanno come titolo l’espressione standard usata in Italia in questi casi, ossia l’esatta sequenza di parole "sito sottoposto a sequestro". La sintassi della ricerca in Google diventa quindi:

intitle:"sito sottoposto a sequestro"

In Canton Ticino la dicitura può avere il formato “Il sito è stato oscurato per ordine della Magistratura del Cantone Ticino”, come in questo caso concreto.

A questo punto si sceglie un sito sequestrato fra quelli elencati da Google e si immette il suo link in Archive.org, che solitamente ne contiene una copia risalente a prima del sequestro. Questa copia consente di avere un’immagine del sito prima del sequestro, di fare ipotesi sulle ragioni del sequestro stesso e anche di determinarne la data approssimativa.

Esempio: ritrovamento di documenti spostati altrove (2019)

Un collega divulgatore scientifico sta cercando di ritrovare dei documenti della NASA che hanno da poco cambiato indirizzo. Sa qual è quello vecchio ma non sa qual è quello nuovo.

Quello vecchio è https://www.jsc.nasa.gov/history/oral_histories/participants.htm.

Con quest’informazione e Archive.org si può risolvere il problema:

  • Si va ad Archive.org e si immette l’indirizzo vecchio per vedere se ne esiste una copia archiviata (sì, questa)
  • Da questa copia archiviata si copia un campione di testo caratterizzante (un titolo, una frase saliente): per esempio, “This is a complete list of archived and released Oral History interviews conducted for the NASA Oral History Projects”
  • Si immette questo campione di testo in Google, mettendolo fra virgolette.
  • Google restituisce il link del nuovo indirizzo (https://historycollection.jsc.nasa.gov/JSCHistoryPortal/history/oral_histories/participants_full.htm)

Può essere estremamente utile ed efficiente installare nel proprio browser l’estensione ufficiale della Wayback Machine, che è reperibile cercando in Google “Official Wayback Machine Extension”: se una data pagina non è più disponibile, quest’estensione cerca automaticamente se una copia di quella pagina è stata archiviata presso Archive.org e la propone. L’estensione consente anche di salvare una pagina Web in Archive.org.

Esempio: reperimento di una sentenza medica rimossa (2022)

Circola online una foto che mostra un titolo di giornale clamorosamente antiscientifico: “Si ammala dopo il vaccino”. La notizia parla di una bambina che ora ha 12 anni, nata sana, alla quale sarebbe stata diagnosticata la sindrome di Down dopo aver fatto la vaccinazione trivalente. I genitori avrebbero fatto causa al Ministero della Salute.

Si pone il problema di:

  1. verificare che non si tratti di un fotomontaggio;
  2. identificare la testata responsabile;
  3. risalire alla data di pubblicazione;
  4. scoprire l’esito legale della vicenda.

L’immagine mostra chiaramente l’indicazione della testata: il giornale gratuito Nuovo Quotidiano di Rimini. Ma la foto è autentica? Per verificarlo si può cercare in Google, tra virgolette, una parte saliente del testo (per esempio “La bimba ora ha 12 anni e due sorelle perfettamente in salute”). Questa ricerca fornisce una pagina del sito Pianetadown.org risalente al 26 maggio 2012 che riporta il testo dell’articolo e indica che si tratta di una notizia apparsa il giorno stesso. 

Il link fornito da Pianetadown.org (a Virtualnewspaper.it) è obsoleto, ma indica che si tratta quasi sicuramente di un articolo reale, visto che Virtualnewspaper.it è un sito che si occupa di pubblicare i giornali in formato digitale.

Il sito del giornale era Nqnews.it: oggi (2022) ospita altri contenuti, ma Archive.org ci permette di vedere com’era per esempio a giugno del 2012.

Leggendo i commenti alla pagina di Pianetadown.org se ne trova uno, datato 7 marzo 2013, che riporta un link (www.comilva.org/node/12919) a un commento dell’avvocato che ha affrontato la causa e che contiene anche la copia della sentenza.

Oggi (2022) il link porta a una pagina vuota, ma su Archive.org se ne trova una copia d’archivio datata 10 luglio 2012, che parla della sentenza, che ha riconosciuto (a livello giuridico, non scientifico) il nesso di causalità fra la vaccinazione e l’autismo (non la sindrome di Down). Archive.org ha anche archiviato una copia della scansione della sentenza (PDF). In sintesi: l’articolo è stato realmente pubblicato da un giornale gratuito di Rimini, risale al 2012 ed è sbagliato perché parla di sindrome di Down quando in realtà la condizione diagnosticata è autismo. La vicenda si è conclusa con il riconoscimento del danno e i benefici di indennizzo previsti dalla legge.

4.3. Ricerca e recupero di documenti confidenziali con Google

Talvolta le autorità o le aziende commettono l’errore di pubblicare su Internet, presso indirizzi non pubblicizzati, documenti che sono sotto embargo. Scaduto l’embargo, annunciano l’indirizzo al pubblico.

Tuttavia Google vede e indicizza anche quasi tutti i documenti pubblicati sui siti Web, anche se si trovano presso indirizzi non linkati o annunciati, per cui i documenti sono comunque già reperibili prima della fine dell’embargo se si immettono in Google le parole chiave pertinenti.

I documenti usano spesso diciture come le seguenti:

  • embargo oppure embargoed until seguito da una data
  • do not disseminate
  • strictement confidentiel
  • ne pas diffuser
  • ne pas devoiler
  • streng vertraulich
  • streng vertraulich und rechtlich geschützt

La ricerca di queste espressioni, specialmente se accompagnata da una data, dall’operatore site: che restringa la ricerca ai siti di un ente o di un’azienda e dall’operatore filetype:PDF e/o filetype:DOC (perché di norma i documenti vengono pubblicati come file PDF o DOC), produce spesso frutti inattesi.

Un esempio limite è dato da questa ricerca:

intext:password intext:username filetype:xls inurl:.xls

che trova i file contenenti elenchi di password incautamente custoditi in una cartella pubblica accessibile a Google. Al posto di inurl:.xls si può anche specificare inurl:.csv.

Un altro esempio altrettanto estremo è il seguente:

“Your password is * Remember this for later use”

4.4. Google Hacking vero e proprio

Le ricerche avanzate in Google possono essere utilizzate per rivelare dati e vulnerabilità informatiche di ogni sorta. Una delle fonti più ricche di suggerimenti di ricerca è il Google Hacking Database, che offre varie categorie di ricerche estremamente penetranti:

  • documenti sensibili
  • log di sicurezza
  • dispositivi connessi: stampanti, telecamere, impianti
  • nomi di utenti
  • password
_____


Nessun commento: