Cerca nel blog

1. Come funziona un motore di ricerca: le cose da sapere

Questo capitolo fa parte della guida Motori di ricerca: uso avanzato per giornalisti, debunker e investigatori digitali di Paolo Attivissimo. Ultimo aggiornamento: 2022/06/07. Distribuzione libera sotto licenza Creative Commons Attribuzione - Non commerciale - Non opere derivate 2.5 Italia. I dettagli legali di questa licenza di distribuzione sono disponibili in italiano qui. Segnalate eventuali errori, link obsoleti, aggiunte o aggiornamenti scrivendo a paolo.attivissimo@gmail.com.

Link breve all’indice: tinyurl.com/guida-motori-ricerca.

_____

Un motore di ricerca, come Google o Bing, è un grande sistema informatico che esplora metodicamente e automaticamente tutte le parti accessibili di Internet e ne cataloga e archivia il contenuto. Questo catalogo e questo archivio vengono aggiornati costantemente e sono consultabili dagli utenti comuni visitando il sito del motore di ricerca (per esempio Google.com).

Ogni motore di ricerca è composto da due elementi fondamentali: 

  • il software “esploratore”, denominato spider (“ragno”, dato che esplora il Web, che in inglese significa “ragnatela”);
  • e l’algoritmo, che decide i criteri d’importanza con i quali vengono presentati agli utenti i risultati dell’esplorazione.

L’“esploratore” ha vari nomi: per esempio, Googlebot per Google, Bingbot per Bing e Yahoo, BaiduSpider per Baidu o YandexBot per Yandex. Una classifica degli spider più importanti di Internet e della portata della loro capacità esplorativa è disponibile presso Imperva.com.

L’algoritmo, invece, di solito non ha un nome, tranne nel caso di Google, che lo chiama PageRank perché determina il rango (rank in inglese) delle pagine del Web.

Il funzionamento esatto di questi componenti è un segreto commerciale, ma i documenti brevettuali pubblicati da Google, per esempio, gettano un po’ di luce sull’argomento: i link presenti nelle pagine esplorate da Googlebot contribuiscono fortemente a determinare l’importanza di una pagina nei risultati del motore di ricerca.

Il concetto di fondo è che se una pagina Web viene linkata da un’altra, vuol dire che la pagina linkata è considerata importante: è una sorta di voto di approvazione (o, per analogia con Facebook, è una sorta di “Mi piace”). Più “voti” ha un link, più è probabile che sarà in cima alla classifica dei risultati del motore di ricerca.

Ma anche l’importanza della pagina che ospita il link è determinante. Per esempio, se il sito di una testata giornalistica autorevole linka una data pagina Web, quella pagina Web sale di rango nella classifica dei risultati del motore di ricerca. Se un blog di un utente qualsiasi linka quella stessa pagina, l’effetto promozionale è molto più debole.

In parole povere: più una pagina è linkata da altre pagine importanti e autorevoli del Web, più quella pagina diventa a sua volta importante ed emerge in cima ai risultati presentati dal motore di ricerca.

Il meccanismo è simile a quello usato dalle riviste scientifiche: più un articolo viene citato, e più viene citato da riviste autorevoli, più viene considerato meritevole.

Per saperne di più:

Accanto a questo criterio fondamentale, tuttavia, quasi tutti i motori di ricerca ne usano anche altri, che personalizzano i risultati in base a chi li richiede o al luogo nel quale vengono richiesti. Uno degli scopi di questa guida è evitare questa personalizzazione, che può rendere irreperibili o nascondere i risultati che in realtà interessano maggiormente a un utente.

1.1. Google, gigante incontrastato ma generalista

In termini di quota di mercato, Google sovrasta di gran lunga tutti gli altri motori di ricerca (figura qui sotto) e offre un maggior numero di opzioni di ricerca selettiva. Per questo motivo è opportuno dedicare a questo colosso buona parte della presente discussione dei motori di ricerca, perché in pratica l’universo dei motori di ricerca è costituito da Google più le briciole.

Queste sono le quote di mercato dei principali motori di ricerca a gennaio 2022 (fonte: Worldwide desktop market share of leading search engines, Statista.com).

  • Google: 85.55%
  • Bing: 7.61%
  • Yahoo: 2.85%
  • Baidu: 0.59%
  • Yandex RU: 0%

 

Tuttavia i vari motori possono, a volte, essere più efficienti su temi specifici, per cui nessuno di loro va trascurato completamente: ognuno ha le proprie particolarità sfruttabili.

Per esempio:

  • Google (Google.com) eccelle nel fornire i cosiddetti “dieci link blu”, ossia una pagina scarna nella quale sono elencati i dieci risultati che con maggiore probabilità soddisfano la richiesta dell’utente, e offre la possibilità di effettuare ricerche estremamente complesse.
  • Bing (Bing.com) è maggiormente specializzato di Google nella copertura degli argomenti più popolari e offre più grafica e informazioni direttamente sulla pagina iniziale; offre inoltre risposte a formule matematiche complesse tramite Wolfram Alpha (sito specializzato nella risoluzione di quesiti di statistica e matematica).
  • Yahoo! Search (search.yahoo.com) usa Bing e Google, ma ne modula diversamente i risultati.
  • Baidu (baidu.com) è specializzato nelle ricerche in cinese.
  • Yandex (yandex.ru) copre le ricerche in russo; esiste anche in versione ucraina (yandex.ua), inglese (yandex.com), turca (yandex.com.tr), kazaka (yandex.kz) e bielorussa (yandex.by).
  • DuckDuckGo (Duckduckgo.com) si distingue perché, a differenza di Google e degli altri motori di ricerca, non personalizza i risultati in base all’utente ed è più rispettoso della privacy (alcune forti motivazioni per preoccuparsi della schedatura sistematica delle ricerche effettuate dagli utenti ad opera di Google e altri motori di ricerca, con implicazioni a lungo termine sia personali sia politiche, sono descritte in questo articolo del 2011), anche se non è perfetto; inoltre fornisce risultati che sono un ibrido di quelli forniti da Yandex, Yahoo, Bing, Wolfram Alpha e Yummly (motore specializzato in alimentazione, cucina e ricette, che consente ricerche in base a ingredienti, diete, allergie, prezzo, sapori e “impara” i gusti dell’utente). Inoltre è disponibile sul dark web tramite Tor.
  • Startpage (Startpage.com), come DuckDuckGo, è un motore di ricerca che non raccoglie dati personali; diversamente da DuckDuckGo, è basato soltanto su Google.
_____


Nessun commento: