Amazon otkrio uzrok pada: Kako je sitna greška srušila pola interneta?

Veliki pad Amazonovih servisa (AWS) koji je u ponedjeljak paralisao dio interneta i srušio neke od najpopularnijih svjetskih aplikacija i usluga, započeo je zbog naizgled sitne greške. Problem, koji je nastao kada su dva automatizovana sistema istovremeno pokušala ažurirati iste podatke, eskalirao je u ozbiljan kvar koji su Amazonovi inženjeri satima pokušavali popraviti, objavila je kompanija u detaljnoj analizi incidenta, piše CNN.

Zbog pada masovne usluge u oblaku korisnici nisu mogli naručivati hranu, pristupati bolničkim mrežama i mobilnom bankarstvu, pa čak ni povezati se sa svojim bezbjednosnim sistemima i pametnim kućnim uređajima. Velike globalne kompanije, uključujući Netflix, Starbucks i United Airlines, privremeno su ostale bez mogućnosti pružanja svojih online usluga.

“Izvinjavamo se zbog uticaja koji je ovaj događaj imao na naše korisnike”, poručili su iz Amazona na veb-stranici AWS-a. “Znamo da je ovaj događaj značajno uticao na mnoge korisnike. Učinićemo sve što možemo kako bismo naučili iz ovog događaja i iskoristili ga za dalje poboljšanje naše dostupnosti.”

- TEKST NASTAVLJA ISPOD OGLASA -

Šta se tačno dogodilo?

Pojednostavljeno, problem je proizašao iz dva programa koja su se istovremeno takmičila u pisanju istog DNS zapisa – svojevrsnog unosa u “telefonskom imeniku interneta” – što je rezultiralo praznim zapisom. To je zatim pokrenulo lavinu problema i poremećaja u radu više AWS usluga.

“Analogija s telefonskim imenikom prilično je prikladna jer su ljudi s druge strane tu, ali ako ne znate kako doći do njih, onda imate problem”, rekla je za CNN Angelique Medina, voditeljica Ciscoove službe za nadzor mreže ThousandEyes Internet Intelligence. “A taj telefonski imenik je praktično nestao.”

- TEKST NASTAVLJA ISPOD OGLASA -

Indranil Gupta, profesor elektrotehnike i računarstva na Univerzitetu Ilinois, iskoristio je drugu analogiju kako bi pojasnio Amazonovu tehničku analizu. Situaciju je uporedio sa dva studenta, jednim brzim i jednim sporijim, koji treba da sarađuju na zajedničkoj bilježnici.

Sporiji student “obraća pažnju u kratkim naletima, ali njegov rad može biti u sukobu ili protivrječiti radu bržeg studenta”, napisao je. Istovremeno, brži student može “pokušavati stalno brzo ‘popravljati’ stvari” i brisati rad sporijeg studenta jer ga smatra zastarjelim. “Rezultat… prazna stranica (ili prekrižena stranica) u laboratorijskoj bilježnici u trenutku kada učitelj dođe i pregleda je”, zaključio je.

Ta “prazna stranica” srušila je AWS-ovu bazu podataka DynamoDB, stvarajući kaskadni učinak koji je uticao i na druge usluge poput EC2, koja nudi virtualne servere za razvoj aplikacija, te Network Load Balancera, koji upravlja mrežnim prometom. Kada se DynamoDB vratio u funkciju, EC2 je pokušao istovremeno vratiti sve svoje poslužitelje online i sistem to opterećenje nije mogao podnijeti.

Lekcije i budući koraci

Nakon incidenta, Amazon je najavio niz promjena na svojim sistemima, uključujući popravak takozvanog “scenarija uslova trke” koji je i doveo do toga da dva sistema prebrišu rad jedan drugoga. Takođe, kompanija će dodati i dodatni paket testiranja za svoju uslugu EC2.

Prekidi rada poput onog u ponedjeljak, iako rijetki, jednostavno su realnost, rekao je Gupta. Ali, ono što je ključno jest kako se takvi problemi rješavaju.

“Veliki prekidi rada poput ovoga, oni se jednostavno događaju. Ne možete ništa učiniti da ih izbjegnete, baš kao što se ljudi razbole”, rekao je Gupta za CNN, prenosi Index. “Ali mislim da je način na koji tvrtka reagira na prekide i informira korisnike zaista, zaista ključan.”

NAJNOVIJE

Ostalo iz kategorije

Najčitanije