Cerca nel blog

2017/03/03

Amazon ha mandato in tilt mezza Internet con un errore di battitura

Ultimo aggiornamento: 2017/03/04 2:00. 

Avete presente il mito secondo il quale Internet, essendo nata come progetto militare, sarebbe in grado di funzionare anche in caso di attacco nucleare? È un mito, appunto, e molti utenti se ne sono accorti molto chiaramente martedì scorso, quando molti dei siti e servizi più popolari di Internet hanno smesso di colpo di funzionare.

Sono andati in tilt siti come Quora, Gizmodo, Slack, Medium, Imgur, Giphy, e molti utenti hanno scoperto che le loro lampadine “smart” e persino i mouse (Razer) dipendevano dalla connessione a Internet.

Il blackout ha colpito soprattutto gli utenti e i siti statunitensi, ma ha avuto ripercussioni in tutto il pianeta. Non si è trattato di un attacco informatico, ma di un incidente che è capitato a un tecnico di Amazon.

Moltissimi siti, infatti, dietro le quinte dipendono dai servizi online di Amazon, gli Amazon Web Services o AWS. Alcuni server di questi servizi Amazon erano lenti, per cui un tecnico ha tentato di sistemare il problema mettendo offline alcuni server di gestione dei pagamenti AWS, come è normale in questi casi.

Ma come spiega Amazon nella sua lettera pubblica di scuse, il comando per metterli offline è stato immesso in modo erroneo e così sono stati scollegati da Internet molti più server del previsto, in particolare quelli del Simple Storage Service (S3), che affittano spazio su disco e in memoria alle app più popolari.

Alcuni di questi sistemi non venivano riavviati completamente da anni, per cui è stato necessario parecchio tempo, circa quattro ore, per rimetterli online in modo sicuro e affidabile. È stato in queste quattro ore che gli internauti si sono resi conto che dai servizi di Amazon passa circa un terzo di tutto il traffico di Internet, e che dipendere totalmente da un unico fornitore di servizi cloud significa che se quel fornitore va in tilt non funziona più niente.

Si potrebbe argomentare che un blackout del genere è l’equivalente di un’interruzione della corrente elettrica, ma non per questo ci equipaggiamo tutti di un generatore elettrico: vero, ma l’equivalenza è un po’ fallace, perché un generatore domestico costa e richiede installazione e manutenzione, mentre progettare lampadine o mouse in modo che possano essere impostati anche senza la connessione a Internet è solo questione di software.


Fonti aggiuntive: Gizmodo, Engadget.

29 commenti:

Angelo Rabellotti ha detto...

Cloud(icante)

abc ha detto...

Una dimenticanza: "significa che SE quel fornitore va in tilt non funziona più niente"

Unknown ha detto...

"e che dipendere totalmente da un unico fornitore di servizi cloud significa che quel fornitore va in tilt non funziona più niente."
Manca un "se" dopo "significa che"
Dam

Anonimo ha detto...

Caro Paolo, mi interesserebbe sapere del mito nucleare. E' un mito o ci sono documenti DARPA che ne parlano? E comunque l'episodio non mette in discussione l'istradamento della rete, ma se la Cloud che paghiamo è o no affidabile. E questa è diventata questione fondamentale, ormai

Alberto Falchi ha detto...

Interessante. Se vogliamo mettere i puntini sulle "i", le Hue di Philips funzionano benissimo anche senza connessione. Non si possono controllare da remoto, ovviamente, ma basta essere collegati al wi-fi di casa per gestirle.

mmorselli ha detto...

La considerazione secondo cui il mito di internet ridondante in caso di attacco nucleare sia appunto un mito non c'entra nulla con questa storia. Qui si parla di server, spengo un server e ovviamente i servizi che ne fanno a capo vanno offline, servizi per altro ridondanti a sua volta, ma se li spengo tutti... La ridondanza di Internet invece è relativa alla rete, è strano che Paolo faccia un errore del genere perché mi ricorda (senza voler fare accostamenti ovviamente) quelle persone (tante) che col termine Internet identificano Google, Facebook o il Browser (solo uno di questi, Internet per loro è uno, ma è uno di questi). Il senso è che se un nodo intermedio viene meno i router si adattano automaticamente per calcolare un percorso alternativo, la cosa ovviamente non vale se ad essere colpito da una testata nucleare è il nodo di partenza o quello di destinazione, e ovviamente se oltre che il nodo hai nuclearizzato anche i server che questo nodo serve.

Ivano Paterno ha detto...

segnalo: manca un "se" nella frase "dipendere totalmente da un unico fornitore di servizi cloud significa che "se" quel fornitore va in tilt non funziona più niente"
:)

Peppe Dantini ha detto...

Quindi Internet (la struttura di rete) e la sua solidità non c'entrano niente. Il problema è di un servizio che ha il "difetto" di essere largamente utilizzato.
Sarebbe come dire che le autostrade non funzionano perché gli autogrill fanno sciopero.

Olivier ha detto...

Errata corrige:
"significa che quel fornitore va in tilt"
Quando/se quel fornitore...

Sue Flora May ha detto...

In effetti è un mito, anche se TCP/IP consente alla rete di sopravvivere anche in caso di perdita di collegamenti fra i nodi (ai tempi di ARPANET erano abbastanza inaffidabili). E secondo Internet Society: «This was never true of the ARPANET, only the unrelated RAND study on secure voice considered nuclear war. However, the later work on Internetting did emphasize robustness and survivability, including the capability to withstand losses of large portions of the underlying networks.»
http://www.internetsociety.org/internet/what-internet/history-internet/brief-history-internet
Oltretutto i normali utenti di Internet non sono collegati direttamente ad essa, ma tramite pochi Internet Provider: se un governo vuole "chiudere" Internet, va da quelli e il traffico di quel Paese crolla quasi a zero.

Amazon porta un ulteriore livello di centralizzazione, che sarà comodo, sarà un business, ma va in direzione opposta rispetto a quei principi di robustezza della rete: se tutto dipende da una cosa, quando quella cade, va giù tutto il resto.
In maniera simile, se pure in un argomento diverso, su Internet si potrebbe aprire il sito che si vuole e fare quel che si vuole, entro certi limiti (fra legislazione e zone grigie, senza scomodare gli aggiramenti, regolamenti del servizio di hosting, ecc) e se un servizio di hosting non ti va più bene, passi i tuoi file altrove; tuttavia se si aprono pagine su Facebook e si fa passare tutto da lì, anche se può sembrare comodo, poi tutte le tue informazioni, immagini, video, gruppi, pagine sono in mano ad un unica entità, che fa il bello e il cattivo tempo come gli pare e a casa sua valgono giustamente le sue regole. Quindi può tra l'altro censurare cose perfettamente legali e che per te non sono nulla di male, mentre lascia libere altre che sono al limite dell'apologia di reato o sono incitamento all'odio o che trovi disgustose. Perché ha una morale diversa dalla tua e/o teme di avere beghe con certi bigotti pronti a scatenare l'inferno e così via.

Più si centralizza e più tutto dipende da una singola entità, più ci si allontana da quell'ideale di rete robusta strutturalmente e nella sua libertà.

Sandro Quaranta ha detto...

Un po' come l'"hacker crackdown" del '91 (se non ricordo male) dell'AT&T... meno male che qui hanno già capito da dove deriva l'errore :D

rico ha detto...

MI meraviglio di Amazon, nell'industria dell'energia, per ogni dispositivo abbiamo tre comandi o "switch":
-Automatico (in remoto)
-Manuale (in remoto ma escludendo il software di controllo)
-Locale (interruttori fisici sul posto, escludono ogni comando in remoto)
Ed è un sistema progettato nei primi anni '90 !

roberto mangherini ha detto...

4 ore per avviare un server O_O, manco ai tempi di win98 xD

Paolo Attivissimo ha detto...

Tutti,

grazie per la segnalazione del refuso, che ho corretto.



Per chi critica il nesso fra Internet "a prova di bomba" e il problema di AWS: siamo noi addetti ai lavori a distinguere fra struttura di Internet, Internet per come è implementata oggi, e un servizio come AWS su Internet. Per l'utente comune non c'è differenza. Proprio per questo ho chiarito che l’"a prova di bomba” è un mito.

Giacomo Rizzo ha detto...

"Alcuni di questi server non venivano riavviati da anni" non è corretto :)
Semplicemente in produzione il riavvio ci ha messo più di quanto non ci si aspettasse.

balloto ha detto...

Non capirò mai come ha fatto il cloud a fare tutto questo successo.

FebusLeePhotography ha detto...

Come funziona un server di pagamento AWS ?

TeknoKraut ha detto...

@unknown, ivano paterno, olivier:
Se voi segnalate lo stesso refuso segnalato da abc, io segnalo che avete ripetuto la segnalazione di abc

@abc:
Sei un cacaspilli a segnalare quel refuso

Nel merito, ma chissenefrega se Gizmodo va giù. Quello che mi spaventa è quando i CIO metteranno su cloud pubblico i processi critici di utility, banche e PA. Un bel giorno ci sveglieremo senza luce, acqua, gas, bancomat bloccati etc etc etc.

Per non parlare di quando arriveranno i veri squali nella piscina del caviale (criminalità organizzata, governi nemici).

È una società fragilissima e lo diventerà sempre di più perché certe cose le capisci solo *dopo*.

Paolo Attivissimo ha detto...

Giacomo Rizzo,

"Alcuni di questi server non venivano riavviati da anni" non è corretto :)

La mia fonte per questo dato è Gizmodo, che dice "Amazon says that some of the key systems involved hadn’t been fully restarted in many years". Amazon stessa, nella lettera che ti ho linkato nel mio articolo, dice " we have not completely restarted the index subsystem or the placement subsystem in our larger regions for many years." Correggo "server" in "sistema", ma il resto a mio parere è corretto.

Paolo Attivissimo ha detto...

FebusLeePhotography,

Come funziona un server di pagamento AWS ?

...non molto bene? :-)

Paolo Attivissimo ha detto...

TeknoKraut,

Sei un cacaspilli a segnalare quel refuso

1. Modera i termini, per favore.

2. Sei nuovo di queste parti, mi sembra, per cui non puoi sapere che qui è consuetudine gradita segnalare gli errori e i refusi.

Guastulfo (Giuseppe) ha detto...

Solo a me questa storia sembra uno dei "racconti dalla sala macchine"? :-)

Non vorrei essere nei panni di chi ha dato i comandi sbagliati.

Quattro ore per rimettere in piedi sistema: avranno dovuto ripristinare da un backup o i servizi di questi server devono essere avviati manualmente uno alla volta?

Urgentissimo! ha detto...

Correggi: non è "questione di software", ma questione di buonsenso.

Andrea ha detto...

4 ore per restart.. mi immagino un disperato davanti a un terminale SSH a cercare di far partire servizi che non partono e non si sa perché...

Giacomo Rizzo ha detto...

È corretto per Gizmondo, ma non è la realtà dei fatti :)
Se parliamo di "riavvio del server" come host, non é vero (i server vengono riavviati - e sostitui a dirla tutta - relativamente spesso).
Se parliamo di riavvio dei componenti, non è vero (Amazon fa Rolling release, quindi i diversi "app server" vengono riavviati ad ogni deployment)
Se invece per "riavvio" intendiamo spegnere interamente un servizio come S3 e riaccenderlo (causando un disservizio agli utenti per la durata del "riavvio") allora si, sacrosanto e *voluto* :)

Giacomo Rizzo ha detto...

@Guastulfo

S3 non è come un server http che serve un paio di pagine web :)
Il bootstrap di un servizio del genere da zero richiede tempi di "warm-up" (soprattutto code, buffers e cache) che benché automatizzate, impiegano ore ad essere completate.
Sono i problemi (e compromessi) di operare servizi alla scala di AWS...

Guido Pisano ha detto...

Considerato che c'e' gente che considera il RAID come sostituto del backup non mi stupisco piu' di niente...

martinobri ha detto...

dipendere totalmente da un unico fornitore di servizi cloud significa che se quel fornitore va in tilt non funziona più niente.

Se mangi solo germogli di certe specie di bambù è chiaro che prima o poi ti estingui.
Se affidi la tua impollinazione a una sola specie di farfalla con la spirotromba abbastanza lunga per la tua corolla, avrai dei GROSSI problemi se la popolazione di quella farfalla si becca una bella epidemia.
La storia naturale sa da molto tempo che la specializzazione è un'arma a doppio taglio; che affidarsi a un'unica risorsa fa finire in un vicolo cieco.
La storia naturale non mente.
Impariamo dalla storia naturale.

Attilio D'Este ha detto...

riprenderanno a funzionare Imgur e Giphy?