Cerca nel blog

2014/10/17

Il sito delle statistiche impossibili

Sapevate che più si riduce il numero delle colonie di api, più aumenta il numero degli arresti per possesso di marijuana? No? Eppure il grafico parla chiaro:


E non è inquietante il fatto che il numero degli annegamenti dovuti a una caduta in una piscina è correlato al numero di film all'anno nei quali ha recitato Nicolas Cage? Anche qui, il grafico è eloquente:


I dati sono reali: li ha raccolti e rappresentati graficamente Tyler Vigen, presso Tylervigen.com. Ma questi grafici non hanno lo scopo di sminuire la statistica o di insinuare che si può mentire facilmente e in modo molto convincente usando un grafico e scegliendo i dati opportuni: servono a ricordare che una correlazione non vuol dire nulla se non c'è anche un meccanismo di causa ed effetto che leghi le serie di dati.

Per esempio, all'inizio del secolo scorso i tumori ai polmoni, che prima erano rarissimi, stavano aumentando enormemente e non si sapeva perché. Ma nel 1929 il medico tedesco Fritz Lickint pubblicò il primo studio che indicava una forte correlazione fra fumo e tumore ai polmoni e suggerì che era sensato condurre studi ulteriori per verificare che ci fosse davvero un legame di causa ed effetto e non si trattasse di una correlazione spuria.

Le statistiche grafiche, insomma, sono uno strumento potente per far emergere fenomeni che altrimenti resterebbero sepolti nei numeri, e l'informatica è un alleato molto efficiente in questo campo; ma ci vuole l'intelligenza umana, abbinata alla conoscenza del mondo reale, per decidere se la correlazione fra due variabili è semplice coincidenza o se c'è davvero un legame di causa.

Altrimenti dovremmo concludere che il consumo di formaggio causa la morte per intrappolamento fra le lenzuola, come si evince da questo grafico:



19 commenti:

Guga ha detto...

"Correlation doesn't imply causation, but it does waggle its eyebrows suggestively and gesture furtively while mouthing 'look over there'" (R. Munroe, xkcd)

È una delle frasi che meglio esprime il concetto, imho.

Anonimo ha detto...

Semplicemente meraviglioso.

Roberto Schiavone ha detto...

In realtà consumare formaggio prima di andare a dormire aumenta l'attività onirica. Magari più persone soffrono di incubi e nell'agitarsi durante il sonno si intrappolano tra le lenzuola....
:D :D :D

Il Lupo della Luna ha detto...

Ce ne sono di completamente assurde, non tanto per la falsa correlazione, quando per il tipo di dati statistici che vengono rilevati.

Elwe ha detto...

Mi ricorda ai tempi universitari lo stretto rapporto che legava il consumo di marjuana con quello di pomodori pelati :)

marcov ha detto...

A proposito di stron.. ehm di affermazioni quantomeno discutibili, qualcuno sa cosa ha detto il luogocomunista ieri sera a Matrix?

marcov ha detto...

Soprattutto 700 /800 morti all'anno di chi si è intrappolato nelle lenzuola ? o_O

ST ha detto...

Sono dati apparentemente senza senso! Nel 90% deic asi si aprla di morte violenta, sono le operazioni segrete dei rettiliani e del NWO che vengonoa galla!

SirEdward ha detto...

Bellissimo articolo.

Ma quindi mi stai dicendo che il riscaldamento globale non è causato dalla diminuzione del numero dei pirati?

Anonimo ha detto...

@ SirEdward
I complottisti direbbero che il riscaldamento globale è iniziato
proprio negli anni dell' esplosione economica dell' oriente.
I complottisti direbbero che c'è correlazione frà le tonnellate
di combustibile consumato dai nuovi emergenti e l'emissione di CO2 in atmosfera.

Donato ha detto...

Che possa esistere una correlazione tra il fatto di introdurre schifezze nei polmoni e che questi si ammalino direi che è più che sensato!

Davide ha detto...

800 morti intrappolati nelle lenzuola??? Altro che mucca pazza o influenza aviaria!!

marcov ha detto...

Ho visto che la moderazione preventiva si è mangiato il mio riferimento a Vandana Shiva che aveva messo in relazione l'aumento dei suicidi tra i contadini e l'introduzione dei semi OGM.

martinobri ha detto...

La relazione di causa-effetto tra consumo di formaggio e morte nelle lenzuola è facilmente dimostrabile.
Dopo il fiato puzza e il coniuge esasperato ti soffoca nelle lenzuola, mascherando il tutto da incidente.

puffolottiaccident ha detto...

Credo che "i signori della galassia" non risentano degli effetti collaterali dell'afri-cola. (correzione del numero di capelli ad un livello meno animalesco di quello dei leoni.)

https://www.youtube.com/watch?v=gzJD0LKMnk4

Comunque dai colonnelli della galassia in giù l'effetto è garantito.

pgc ha detto...

Ci si può chiedere quale sia la probabilità che 20 dati (come nei grafici mostrati) presi da un dataset scelto a caso mostrino un coefficiente certo coefficiente di correlazione (o anticorrelazione) r (o -r) con un certo dataset.

Se scegliamo per es. r = 0.66 (annegamenti vs. Nicolas Cage), la risposta è circa l'1 per mille. Ciò vuol dire che se considero 1000 dataset scelti a caso è probabile che ne trovi uno che correla almeno così bene come quello mostrato con il numero di annegamenti.

1000 dataset non sono molti ormai, dato il numero fantasmagorico di dati disponibili pubblicamente. Senza contare che le serie temporali, in genere mostrano cambiamenti relativamente modesti tra un dato e il successivo, il che decrementa significativamente la probabilità di correlazione.

Ecco spiegato quantitativamente PERCHE' causation is not correlation.

puffolottiaccident ha detto...

well, provo a proporne una interessante.

La longevità di un modello di automobile e i giorni di infortunio del proprietario.

Gio ha detto...

L'ultima potrebbe essere sensata- dopotutto l'alimentazione puo' influire la qualita' del sonno, no? Troppo buon senso,troppa rigidita', troppa compiacenza sono nemici del progresso scientifico.

MarcoT ha detto...

Noto che non hai messo tra gli esempi questa
"US spending on science, space, and technology
correlates with
Suicides by hanging, strangulation and suffocation"
GOMBLOOOODDO!11!!!!!!!1!!!!! e dimostra ancora una volta che sei DI PARTE ! (per fortuna... :-) :-) )