skip to main | skip to sidebar
10 commenti

Come fa una sola persona a scrivere quasi 3 milioni di voci di Wikipedia?

Sta circolando in Rete la notizia che un uomo solo, il cinquantatreenne svedese Sverker Johansson, sarebbe l'autore di 2,7 milioni di articoli di Wikipedia. In altre parole, da solo avrebbe redatto l'8,5% di tutti gli articoli dell'enciclopedia online. Certo, ci avrebbe messo sette anni, diventando il redattore più prolifico in assoluto, ma anche così si tratterebbe di una media impressionante che potrebbe far dubitare dell'attendibilità di Wikipedia. Sembra improbabile, ma la notizia è reale. Però c'è il trucco.

Johansson, infatti, utilizza un software che genera automaticamente gli articoli attingendo a fonti attendibili. Ovviamente questo metodo funziona bene soltanto in alcuni campi nei quali l'informazione è ben strutturata e non ambigua, e infatti Johansson genera solitamente articoli sulla classificazione delle specie animali più disparate oppure sulle località filippine (sua moglie è delle Filippine).

Il suo software, chiamato Lsjbot, riesce a partorire fino a 10.000 voci dell'enciclopedia in un giorno. Certo, sono soltanto abbozzi, ma sono la base sulla quale altri, poi, possono costruire i dettagli trovandosi già pronta tutta la parte standard automatizzabile.

La pratica è controversa anche per i Wikipediani, e Johansson non è l'unico a usare software per creare articoli: anzi, la percentuale di contenuto generata in questo modo è in aumento. Del resto ci sono tantissimi argomenti per i quali non ci sono autori disposti a spendere anni a scrivere a mano contenuti, per cui il software è meglio di niente. In ogni caso le voci generate da sistemi automatici sono identificate chiaramente come tali in Wikipedia, per cui l'utente è avvisato.
Invia un commento
I commenti non appaiono subito, devono essere tutti approvati da un moderatore. Lo so, è scomodo, ma è necessario per tenere lontani scocciatori, spammer, troll e stupidi: siate civili e verrete pubblicati qualunque sia la vostra opinione; gli incivili di qualsiasi orientamento non verranno pubblicati, se non per mostrare il loro squallore.
Inviando un commento date il vostro consenso alla sua pubblicazione, qui o altrove.
Maggiori informazioni riguardanti regole e utilizzo dei commenti sono reperibili nella sezione apposita.
NOTA BENE. L'area sottostante per l'invio dei commenti non è contenuta in questa pagina ma è un iframe, cioè una finestra su una pagina di Blogger esterna a questo blog. Ciò significa che dovete assicurarvi che non venga bloccata da estensioni del vostro browser (tipo quelle che eliminano le pubblicità) e/o da altri programmi di protezione antimalware (tipo Kaspersky). Inoltre è necessario che sia permesso accettare i cookie da terze parti (informativa sulla privacy a riguardo).
Commenti
Commenti (10)
potrebbe far dubitare dell'attendibilità di Wikipedia.

Solo per questo? :-))

Mi ricorda questa storia uno degli episodi più paradigmatici di uicchipedia: la lotta in quella italiana per avere l'onore di essere l'autore della milionesima voce, con un'intera nottata passata fra chi inseriva i nomi di scogli e chi aveva attivato un programma per dormire beato e prendersi il premio.
La conclusione fu, per l'appunta, degna: per paura di toccare gl'intoccabili, furono assegnate quattro "milionesime" voci a pari merito.

per i particolari vedasi il link sottostante

http://wikiperle.blogspot.it/2013/01/wikipedia-la-milionesima-bufala.html


Se pensate che questo sia un comportamento da sfigati, non avete idea di cosa accade nella Wikipedia in italiano, dove gli utenti usano i software automatici o pubblicano una serie di voci riguardanti degli SCOGLI per accaparrarsi il merito della milionesima voce....

A Replicante Cattivo:

sei proprio un replicante cattivo ;-)

Non ci trovo niente di strano!
I bot sono presenti su tutte le wikipedia e i progetti Wikimedia in generale e sono regolamentati con apposite regole.

Che poi spesso vengano usati male (come giustamente fa notare Replicante Cattivo) è un altro discorso!
Secondo me è un ottima cosa invece, se un SW riesce a fare quello che un essere umano non riuscirebbe a fare (in questo caso per la quantità, domani chissà se anche la qualità sarà paragonabile o -udite udite- superiore) è un bene. Certo se il bot avesse stravolto voci già esistenti o ci sarebbero prove dell'inserimento di informazioni false o faziose sarebbe un altro discorso. Ma il bot ha solo aggiunto nuove voci e creato contenuti che altrimenti sarebbero stati una mancanza dell'enciclopedia. Già trovare una pagina scarna nella propria lingua è un punto di partenza (specialmente se c'è il link all'articolo in altre lingue) sia per le proprie ricerche sia per estendere l'articolo stesso.
Lsjbot ha passato il test di Touring "Wikipedia edition" :)

Mi sembra una buona idea, visto che Lsjbot genera degli "stub", che possono essere utili sia come base di partenza per ampliamenti sia come riferimenti per link.

Del resto se un software puo' fare lo stesso lavoro di una persona perche' farlo fare ad una persona?
Invece di creare molte voci sterili, tipo la versione polacca, sarebbe il caso che gli editor si concentrino sulle voci esistenti, alcune delle quali penose per contenuto o addirittura scritte chiaramente in modo non neutrale e che da anni rimangono indisturbate. Personalmente non spenderò più manco un secondo per migliorare la versione italiana, perché non mi va di perdere tempo in diatribe con gente meschina che ha come scopo quello di spadroneggiare e promuovere le proprie idee.

I complottisti direbbero che wikkipedia è uno dei pochissimi siti
a livello internazionale che non ospita pubblicità evidente.
chissà quanto deve "rosicare" il sig. whales. :-D
I complottisti direbbero che su wikkipedia esiste una casta di perfetti
diversamente intelligenti, che bannano pagine di matematica eccelsa,
e al loro posto scrivono tonnellate di demenzialità oscene.
Un bot ben preparato può anche creare voci come https://it.wikipedia.org/w/index.php?title=HD_81157&oldid=26693905
In wikipedia italia ci sono scritte delle cose pazzesche: errori grammaticali a profusione, inesattezze, intere voci copiate da altri siti alla faccia del diritto d' autore, etc.