Key Takeaways
- Facebooks technische Probleme waren bedauerlich, aber das Problem wäre wahrscheinlich viel schneller gelöst worden, wenn es nicht auf so viele miteinander verbundene Systeme angewiesen gewesen wäre.
- Es gibt keine Möglichkeit, Systemausfälle vollständig zu verhindern, aber es gibt Möglichkeiten, sie weniger wahrscheinlich zu machen.
- Backup-Pläne dafür zu haben, wann (nicht ob, wann) ein System ausfällt, kann den Unterschied zwischen "ärgerlich" und "katastrophal" ausmachen.
Das jüngste Facebook-Debakel zeigt, wie zwangsläufig miteinander verbundene Systeme scheitern und warum wir sie nicht für alles verwenden sollten.
Der Ausfall von Facebook, WhatsApp und Instagram am Montag für mehrere Stunden war unbequem, schädlich für Unternehmen und in einigen Fällen fast katastrophal. Laut Facebook war dies alles auf Konfigurationsänderungen an seinen netzwerkkoordinierenden Routern zurückzuführen.
Es ist eine vernünftige Erklärung, aber die Tatsache, dass ein einziger Fehler wie dieser nicht nur Facebook, sondern auch andere Facebook-eigene Systeme lahmlegen könnte, ist etwas alarmierend.
Eine falsche Router-Konfigurationsänderung führte dazu, dass mehrere Dienste und sogar VR-Headsets nicht mehr funktionierten. Darüber hinaus hatte es nach eigenen Angaben von Facebook einen kaskadierenden Effekt auf die Kommunikation der Rechenzentren des Unternehmens und brachte alle ihre Dienste zum Erliegen.
"Die Abhängigkeit von miteinander verbundenen Systemen birgt ein inhärentes Risiko von System- oder sogar Dienstausfällen", sagte Francesco Altomare, Senior Technical Sales Engineer bei GlobalDots, in einem E-Mail-Interview mit Lifewire, "Um diesem beängstigenden Risiko entgegenzuwirken, nutzen Unternehmen das SRE-Prinzip (System Reliability Engineering) sowie andere Tools, die sich alle mit unterschiedlichen Redundanzstufen befassen, die in jede Ebene der Infrastruktur eines Systems eingebaut sind."
Was schief gehen kann
Es ist erwähnenswert, dass, wenn ein solches System ausfällt, normalerweise ein perfekter Sturm von Dingen erforderlich ist, die schief gehen. Es ist weniger wie ein Kartenhaus, das darauf wartet, umzufallen, sondern eher wie eine freigelegte thermische Auspufföffnung auf einer Raumstation von der Größe eines kleinen Mondes.
Die meisten Unternehmen unternehmen Schritte, um sicherzustellen, dass die eine Sache, die alles ins Chaos stürzen könnte, niemals passiert – aber trotzdem passieren kann.
"Unerwartete Ausfälle gehören zum Geschäft und können durch Fahrlässigkeit der Mitarbeiter, Fehler im Netzwerk des Internetdienstanbieters oder sogar Probleme bei Cloud-Speicherdiensten entstehen", sagte Sally Stevens, Mitbegründerin von FastPeopleSearch, in ein E-Mail-Interview.
"…Solange die notwendigen Schritte zum Schutz des Systems – wie Backups, Vor-Ort-Router und abgestufter Zugriff – durchgeführt werden, sind diese Ausfälle ziemlich unwahrscheinlich." Obwohl es selbst mit einer Armee von Ausfallsicherungen immer noch möglich ist, dass der Dreh- und Angelpunkt versagt.
Wenn das System, das Dinge wie primäre Kontaktformen, Geräte, Türen usw. steuert, ausfällt, können die Folgen erheblich sein. Von leichten Unannehmlichkeiten bis hin zu katastrophalen Folgen, je nachdem, wie sehr sich Einzelpersonen und Unternehmen darauf verlassen.
"Es besteht auch das Risiko, dass Hacker von den am wenigsten geschützten Geräten wie Kühlschränken und Toastern in das System eindringen", fügte Stevens hinzu, "was zu Datendiebstahl und Ransomware führen könnte."
Wie wir uns vorbereiten können
Es gibt keine Möglichkeit zu garantieren, dass ein System niemals ausfällt, aber es gibt Schritte, die unternommen werden können, um Ausfälle entweder weniger wahrscheinlich zu machen oder Ausfälle reibungsloser anzugehen. Eine Kombination der beiden Ansätze, die Ausfallsicherungen und Gegenmaßnahmen mit Notfallplänen und Backup-Systemen verbindet, wäre ideal.
"Um diese Gefahren zu eliminieren, die durch Produkte und Dienstleistungen von Drittanbietern entstehen, die effektiv gehandhabt werden, müssen Rollen und Pflichten in Bezug auf das Risikomanagement von Drittanbietern genau umrissen werden", sagte Daniela Sawyer, Gründerin und Chief Technology Officer von FindPeopleFast. in einem E-Mail-Interview: „Um in dieser neuen Umgebung zu gedeihen, müssen Risikomanager die wesentlichen Teile eines solch ausgeklügelten Ökosystems verstehen.“
Was mit Facebook, WhatsApp und Instagram passiert ist, war bedauerlich, aber hoffentlich auch augenöffnend. Menschen, die sich auf vernetzte Systeme verlassen, müssen verstehen, dass das Richtige, was schief geht, alles stören kann. Und es müssen Maßnahmen ergriffen (oder überprüft und verfeinert) werden, um solche Störungen weniger wahrscheinlich und weniger wirkungsvoll zu machen.
Im Fall von Facebook waren das Problem nicht die Router-Probleme, sondern die Tatsache, dass fast sein gesamtes Ökosystem mit allem anderen verbunden war. Da Facebook (der Dienst) ausgefallen war, musste Facebook (das Unternehmen) viel mehr Zeit und Energie aufwenden, um das Problem einfach zu organisieren und anzugehen. Wenn es entweder kein so tief verwurzeltes, miteinander verbundenes System verwendet hätte oder Backup-Pläne vorhanden wäre, um mit einem solchen Ausfall fertig zu werden, hätte die Behebung wahrscheinlich viel weniger Zeit in Anspruch genommen.