skip to main | skip to sidebar
28 commenti

Amazon ha mandato in tilt mezza Internet con un errore di battitura

Ultimo aggiornamento: 2017/03/04 2:00. 

Avete presente il mito secondo il quale Internet, essendo nata come progetto militare, sarebbe in grado di funzionare anche in caso di attacco nucleare? È un mito, appunto, e molti utenti se ne sono accorti molto chiaramente martedì scorso, quando molti dei siti e servizi più popolari di Internet hanno smesso di colpo di funzionare.

Sono andati in tilt siti come Quora, Gizmodo, Slack, Medium, Imgur, Giphy, e molti utenti hanno scoperto che le loro lampadine “smart” e persino i mouse (Razer) dipendevano dalla connessione a Internet.

Il blackout ha colpito soprattutto gli utenti e i siti statunitensi, ma ha avuto ripercussioni in tutto il pianeta. Non si è trattato di un attacco informatico, ma di un incidente che è capitato a un tecnico di Amazon.

Moltissimi siti, infatti, dietro le quinte dipendono dai servizi online di Amazon, gli Amazon Web Services o AWS. Alcuni server di questi servizi Amazon erano lenti, per cui un tecnico ha tentato di sistemare il problema mettendo offline alcuni server di gestione dei pagamenti AWS, come è normale in questi casi.

Ma come spiega Amazon nella sua lettera pubblica di scuse, il comando per metterli offline è stato immesso in modo erroneo e così sono stati scollegati da Internet molti più server del previsto, in particolare quelli del Simple Storage Service (S3), che affittano spazio su disco e in memoria alle app più popolari.

Alcuni di questi sistemi non venivano riavviati completamente da anni, per cui è stato necessario parecchio tempo, circa quattro ore, per rimetterli online in modo sicuro e affidabile. È stato in queste quattro ore che gli internauti si sono resi conto che dai servizi di Amazon passa circa un terzo di tutto il traffico di Internet, e che dipendere totalmente da un unico fornitore di servizi cloud significa che se quel fornitore va in tilt non funziona più niente.

Si potrebbe argomentare che un blackout del genere è l’equivalente di un’interruzione della corrente elettrica, ma non per questo ci equipaggiamo tutti di un generatore elettrico: vero, ma l’equivalenza è un po’ fallace, perché un generatore domestico costa e richiede installazione e manutenzione, mentre progettare lampadine o mouse in modo che possano essere impostati anche senza la connessione a Internet è solo questione di software.


Fonti aggiuntive: Gizmodo, Engadget.
Invia un commento
I commenti non appaiono subito, devono essere tutti approvati da un moderatore. Lo so, è scomodo, ma è necessario per tenere lontani scocciatori, spammer, troll e stupidi: siate civili e verrete pubblicati qualunque sia la vostra opinione; gli incivili di qualsiasi orientamento non verranno pubblicati, se non per mostrare il loro squallore.
Inviando un commento date il vostro consenso alla sua pubblicazione, qui o altrove.
Maggiori informazioni riguardanti regole e utilizzo dei commenti sono reperibili nella sezione apposita.
NOTA BENE. L'area sottostante per l'invio dei commenti non è contenuta in questa pagina ma è un iframe, cioè una finestra su una pagina di Blogger esterna a questo blog. Ciò significa che dovete assicurarvi che non venga bloccata da estensioni del vostro browser (tipo quelle che eliminano le pubblicità) e/o da altri programmi di protezione antimalware (tipo Kaspersky). Inoltre è necessario che sia permesso accettare i cookie da terze parti (informativa sulla privacy a riguardo).
Commenti
Commenti (28)
Cloud(icante)
Una dimenticanza: "significa che SE quel fornitore va in tilt non funziona più niente"
"e che dipendere totalmente da un unico fornitore di servizi cloud significa che quel fornitore va in tilt non funziona più niente."
Manca un "se" dopo "significa che"
Dam
Caro Paolo, mi interesserebbe sapere del mito nucleare. E' un mito o ci sono documenti DARPA che ne parlano? E comunque l'episodio non mette in discussione l'istradamento della rete, ma se la Cloud che paghiamo è o no affidabile. E questa è diventata questione fondamentale, ormai
Interessante. Se vogliamo mettere i puntini sulle "i", le Hue di Philips funzionano benissimo anche senza connessione. Non si possono controllare da remoto, ovviamente, ma basta essere collegati al wi-fi di casa per gestirle.
La considerazione secondo cui il mito di internet ridondante in caso di attacco nucleare sia appunto un mito non c'entra nulla con questa storia. Qui si parla di server, spengo un server e ovviamente i servizi che ne fanno a capo vanno offline, servizi per altro ridondanti a sua volta, ma se li spengo tutti... La ridondanza di Internet invece è relativa alla rete, è strano che Paolo faccia un errore del genere perché mi ricorda (senza voler fare accostamenti ovviamente) quelle persone (tante) che col termine Internet identificano Google, Facebook o il Browser (solo uno di questi, Internet per loro è uno, ma è uno di questi). Il senso è che se un nodo intermedio viene meno i router si adattano automaticamente per calcolare un percorso alternativo, la cosa ovviamente non vale se ad essere colpito da una testata nucleare è il nodo di partenza o quello di destinazione, e ovviamente se oltre che il nodo hai nuclearizzato anche i server che questo nodo serve.
segnalo: manca un "se" nella frase "dipendere totalmente da un unico fornitore di servizi cloud significa che "se" quel fornitore va in tilt non funziona più niente"
:)
Quindi Internet (la struttura di rete) e la sua solidità non c'entrano niente. Il problema è di un servizio che ha il "difetto" di essere largamente utilizzato.
Sarebbe come dire che le autostrade non funzionano perché gli autogrill fanno sciopero.
Errata corrige:
"significa che quel fornitore va in tilt"
Quando/se quel fornitore...
In effetti è un mito, anche se TCP/IP consente alla rete di sopravvivere anche in caso di perdita di collegamenti fra i nodi (ai tempi di ARPANET erano abbastanza inaffidabili). E secondo Internet Society: «This was never true of the ARPANET, only the unrelated RAND study on secure voice considered nuclear war. However, the later work on Internetting did emphasize robustness and survivability, including the capability to withstand losses of large portions of the underlying networks.»
http://www.internetsociety.org/internet/what-internet/history-internet/brief-history-internet
Oltretutto i normali utenti di Internet non sono collegati direttamente ad essa, ma tramite pochi Internet Provider: se un governo vuole "chiudere" Internet, va da quelli e il traffico di quel Paese crolla quasi a zero.

Amazon porta un ulteriore livello di centralizzazione, che sarà comodo, sarà un business, ma va in direzione opposta rispetto a quei principi di robustezza della rete: se tutto dipende da una cosa, quando quella cade, va giù tutto il resto.
In maniera simile, se pure in un argomento diverso, su Internet si potrebbe aprire il sito che si vuole e fare quel che si vuole, entro certi limiti (fra legislazione e zone grigie, senza scomodare gli aggiramenti, regolamenti del servizio di hosting, ecc) e se un servizio di hosting non ti va più bene, passi i tuoi file altrove; tuttavia se si aprono pagine su Facebook e si fa passare tutto da lì, anche se può sembrare comodo, poi tutte le tue informazioni, immagini, video, gruppi, pagine sono in mano ad un unica entità, che fa il bello e il cattivo tempo come gli pare e a casa sua valgono giustamente le sue regole. Quindi può tra l'altro censurare cose perfettamente legali e che per te non sono nulla di male, mentre lascia libere altre che sono al limite dell'apologia di reato o sono incitamento all'odio o che trovi disgustose. Perché ha una morale diversa dalla tua e/o teme di avere beghe con certi bigotti pronti a scatenare l'inferno e così via.

Più si centralizza e più tutto dipende da una singola entità, più ci si allontana da quell'ideale di rete robusta strutturalmente e nella sua libertà.
Un po' come l'"hacker crackdown" del '91 (se non ricordo male) dell'AT&T... meno male che qui hanno già capito da dove deriva l'errore :D
MI meraviglio di Amazon, nell'industria dell'energia, per ogni dispositivo abbiamo tre comandi o "switch":
-Automatico (in remoto)
-Manuale (in remoto ma escludendo il software di controllo)
-Locale (interruttori fisici sul posto, escludono ogni comando in remoto)
Ed è un sistema progettato nei primi anni '90 !
4 ore per avviare un server O_O, manco ai tempi di win98 xD
Tutti,

grazie per la segnalazione del refuso, che ho corretto.



Per chi critica il nesso fra Internet "a prova di bomba" e il problema di AWS: siamo noi addetti ai lavori a distinguere fra struttura di Internet, Internet per come è implementata oggi, e un servizio come AWS su Internet. Per l'utente comune non c'è differenza. Proprio per questo ho chiarito che l’"a prova di bomba” è un mito.
"Alcuni di questi server non venivano riavviati da anni" non è corretto :)
Semplicemente in produzione il riavvio ci ha messo più di quanto non ci si aspettasse.
Non capirò mai come ha fatto il cloud a fare tutto questo successo.
Come funziona un server di pagamento AWS ?
@unknown, ivano paterno, olivier:
Se voi segnalate lo stesso refuso segnalato da abc, io segnalo che avete ripetuto la segnalazione di abc

@abc:
Sei un cacaspilli a segnalare quel refuso

Nel merito, ma chissenefrega se Gizmodo va giù. Quello che mi spaventa è quando i CIO metteranno su cloud pubblico i processi critici di utility, banche e PA. Un bel giorno ci sveglieremo senza luce, acqua, gas, bancomat bloccati etc etc etc.

Per non parlare di quando arriveranno i veri squali nella piscina del caviale (criminalità organizzata, governi nemici).

È una società fragilissima e lo diventerà sempre di più perché certe cose le capisci solo *dopo*.
Giacomo Rizzo,

"Alcuni di questi server non venivano riavviati da anni" non è corretto :)

La mia fonte per questo dato è Gizmodo, che dice "Amazon says that some of the key systems involved hadn’t been fully restarted in many years". Amazon stessa, nella lettera che ti ho linkato nel mio articolo, dice " we have not completely restarted the index subsystem or the placement subsystem in our larger regions for many years." Correggo "server" in "sistema", ma il resto a mio parere è corretto.
FebusLeePhotography,

Come funziona un server di pagamento AWS ?

...non molto bene? :-)
TeknoKraut,

Sei un cacaspilli a segnalare quel refuso

1. Modera i termini, per favore.

2. Sei nuovo di queste parti, mi sembra, per cui non puoi sapere che qui è consuetudine gradita segnalare gli errori e i refusi.
Solo a me questa storia sembra uno dei "racconti dalla sala macchine"? :-)

Non vorrei essere nei panni di chi ha dato i comandi sbagliati.

Quattro ore per rimettere in piedi sistema: avranno dovuto ripristinare da un backup o i servizi di questi server devono essere avviati manualmente uno alla volta?
Correggi: non è "questione di software", ma questione di buonsenso.
4 ore per restart.. mi immagino un disperato davanti a un terminale SSH a cercare di far partire servizi che non partono e non si sa perché...
È corretto per Gizmondo, ma non è la realtà dei fatti :)
Se parliamo di "riavvio del server" come host, non é vero (i server vengono riavviati - e sostitui a dirla tutta - relativamente spesso).
Se parliamo di riavvio dei componenti, non è vero (Amazon fa Rolling release, quindi i diversi "app server" vengono riavviati ad ogni deployment)
Se invece per "riavvio" intendiamo spegnere interamente un servizio come S3 e riaccenderlo (causando un disservizio agli utenti per la durata del "riavvio") allora si, sacrosanto e *voluto* :)
@Guastulfo

S3 non è come un server http che serve un paio di pagine web :)
Il bootstrap di un servizio del genere da zero richiede tempi di "warm-up" (soprattutto code, buffers e cache) che benché automatizzate, impiegano ore ad essere completate.
Sono i problemi (e compromessi) di operare servizi alla scala di AWS...
Considerato che c'e' gente che considera il RAID come sostituto del backup non mi stupisco piu' di niente...
dipendere totalmente da un unico fornitore di servizi cloud significa che se quel fornitore va in tilt non funziona più niente.

Se mangi solo germogli di certe specie di bambù è chiaro che prima o poi ti estingui.
Se affidi la tua impollinazione a una sola specie di farfalla con la spirotromba abbastanza lunga per la tua corolla, avrai dei GROSSI problemi se la popolazione di quella farfalla si becca una bella epidemia.
La storia naturale sa da molto tempo che la specializzazione è un'arma a doppio taglio; che affidarsi a un'unica risorsa fa finire in un vicolo cieco.
La storia naturale non mente.
Impariamo dalla storia naturale.