Stadt Mont Belvieu, Texas

Von einem größeren Ausfall bis hin zu einer schnellen Reaktion und vollständigen Systemwiederherstellung.

Mont Belvieu-Logo

Übersicht

Als Tausende von Organisationen weltweit von einer globalen Technologiestörung betroffen waren, war auch die Stadt Mont Belvieu in Texas betroffen. Da unternehmenskritische Systeme zum Stillstand kamen, musste die Stadt ihre Dienste dringend wiederherstellen. Dank der Partnerschaft mit Zadara konnte die Stadt nicht nur ihre Infrastruktur stabilisieren, sondern dies auch schnell, effizient und ohne laufende Kosten tun. Diese Fallstudie demonstriert praxisnah, wie flexible, verbrauchsbasierte Infrastruktur von Zadara Kommunen (in diesem Fall) in die Lage versetzen kann, schnell auf unvorhersehbare Herausforderungen zu reagieren.

Branche

Behörden

Lösungen

On-Premise aaS ITaaS mit Full Stack, Storage, Compute

Reiseziel

Texas

Das Support-Team von Zadara gibt mir absolute Sicherheit. Als Dienstleister ist ein zuverlässiges Backup unerlässlich, und Zadara hat geliefert, als es darauf ankam. Während meiner Reise während des CrowdStrike-Events konnte ich meinen Kunden vertrauensvoll an den Zadara-Support verweisen, da ich wusste, dass er in besten Händen war. Ihre Reaktionsschnelligkeit und ihr Fachwissen machen sie zu einem unschätzbar wertvollen Partner.“

Die Herausforderung

Am 19. Juli 2024 wurde a großflächiger Ausfall Ein fehlerhafter Patch des Cybersicherheitsanbieters CrowdStrike führte zu stadtweiten Störungen. Da die städtischen Systeme massenhaft neu gestartet wurden, priorisierte das IT-Team die Wiederherstellung der Domänencontroller und virtuellen Server. Das Ausmaß des Vorfalls machte jedoch schnell deutlich, dass zusätzliche Infrastrukturressourcen erforderlich waren.

Während der Triage erkannte das IT-Team, dass die voreingestellten Kapazitätsgrenzen der Umgebung erreicht waren. Die Infrastruktur funktionierte zwar wie geplant, doch der unerwartete Nachfrageanstieg erforderte mehr Rechen- und Instanzkapazität als zuvor bereitgestellt.

Die Lösung

  • Vorübergehende Erweiterung des Ressourcenkontingents mit Zadara.
  • Wiederherstellen von Servern über Snapshots.
  • Identifizieren und Implementieren des Fixes zur Umbenennung von CrowdStrike-Ordnern.
  • Reduzieren Sie die CPU-Ressourcen auf Servern, um Kernressourcen freizugeben.

Impact

  • Ungefähr 85 Arbeitsstunden verloren.
  • Geschätzte Kosten von 10,000 US-Dollar zur Wiederherstellung der Dienste.

Takeaways

  • Es ist wichtig, Ressourcenkontingente und -beschränkungen zu verstehen und zu überwachen.
  • Notwendigkeit, jederzeit über die Kontaktinformationen des MSP-Administrators zu verfügen.
  • Wert einer schnellen Reaktion und Unterstützung von Anbietern wie Zadara.
  • Bedeutung der internen Kommunikation und Zusammenarbeit beim Krisenmanagement.

Wissen

  • Besonderer Dank geht an Zadara für die schnelle Unterstützung bei der Systemwiederherstellung.

Zeitleiste des Vorfalls und wichtige Ereignisse

Datum / Zeit

Event

Einige Tage vor dem CrowdStrike-Ausfall-Patch

Beim Versuch, über Zadara einen neuen Server zu erstellen, ist ein Ressourcenfehler aufgetreten. Vom MSP-Administrator festgelegtes Kontingentlimit festgestellt.

Freitag, 19. Juli, 5:30 Uhr

Stadtcomputer stecken in einem Neustartzyklus fest. CrowdStrike identifizierte das Problem über eine csagent.sys-Meldung auf der VM-Serverkonsole. Die Wiederherstellung von Domänencontrollern hatte Priorität. Ressourcenbeschränkungen bei Zadara verhinderten die Erstellung zusätzlicher Server.

Freitag, 19. Juli, Vormittag

MSP-Administrator und Zadara kontaktiert, um das Ressourcenkontingent vorübergehend zu erhöhen. Das Kontingent wurde von 50 Instanzen mit 153 Kernen auf 100 Instanzen mit 224 Kernen erweitert. Server wurden über Snapshots wiederhergestellt. Beschädigte Server gelöscht. Das Team arbeitete daran, die PCs auf die neuesten Wiederherstellungspunkte zurückzusetzen. Fix beinhaltete die Umbenennung des erkannten und freigegebenen CrowdStrike-Ordners.

Freitag, 19. Juli, 12:12 Uhr

Ticket zur Dokumentation geöffnet.

Freitag, 19. Juli, 12:20 Uhr

Der CrowdStrike-Support antwortete mit einem Link zu einem Fix.

Nach der Auflösung

CPU-Ressourcen auf mehreren Servern reduziert, um Kernressourcen freizugeben. Anpassung auf 43 Instanzen mit 161 Kernen. Bewusstsein für die Ressourcenbeschränkungen von Instanzen und Kernen geschaffen. Für nächstes Jahr ist ein Budget für mehr Instanzen und Kerne vorgesehen.

Vorteile durch Skalierbarkeit und Flexibilität

Zum Zeitpunkt der Implementierung hatte die Stadt Mont Belvieu genau die Rechen- und Speicherkapazität investiert, die sie für ihren Betrieb benötigte. Blue Iron Technologies entwickelte in Zusammenarbeit mit Zadara ein verbrauchsbasiertes Modell, das es der Stadt ermöglichte, nur für die Ressourcen zu zahlen, die sie aktiv nutzte – wodurch eine Überbereitstellung im Voraus entfiel.

Während des CrowdStrike-Ausfalls erwies sich dieses Modell als unschätzbar wertvoll. Da die Stadt zusätzliche Rechen- und Speicherkapazität benötigte, um kritische Infrastrukturen wiederherzustellen und zu stabilisieren, ermöglichte die bestehende Lösung eine schnelle Skalierung ohne die Verzögerungen oder Kosten, die mit der Beschaffung und Bereitstellung physischer Hardware verbunden sind.

Wesentliche Vorteile:

  • On-Demand-Erweiterung: Die Ressourcenlimits wurden innerhalb von Stunden erhöht, nicht innerhalb von Tagen oder Wochen.
  • Keine Versandverzögerungen: Zusätzliche Kapazität wurde virtuell bereitgestellt – es war keine neue Ausrüstung erforderlich.
  • Kosteneffizienz: Die Stadt zahlte weiterhin auf Grundlage der tatsächlichen Nutzung und vermied so übermäßige Ausgaben für ungenutzte Infrastruktur.
  • Vorteile moderner Architektur: Diese Art der elastischen Skalierbarkeit ist mit herkömmlichen hardwarezentrierten Lösungen normalerweise nicht erreichbar.

Dieses Ereignis unterstrich den strategischen Wert eines flexiblen, Cloud-basierten Infrastrukturansatzes, der sicherstellt, dass sich Gemeinden wie Mont Belvieu angesichts unvorhergesehener Herausforderungen schnell anpassen können.

 

Kostenkontrolle und Supportabdeckung

Einer der wertvollsten Aspekte der Erfahrung der Stadt Mont Belvieu war die Fähigkeit, die unerwartete Krise zu bewältigen ohne langfristige finanzielle Belastungen.

Der Support während des Vorfalls – einschließlich Lieferanteneskalation, Unterstützung bei der Wiederherstellung und Ressourcenskalierung – wurde vollständig durch die bestehende Vereinbarung der Stadt mit Blue Iron Technologies abgedeckt. Es gab keine zusätzlichen Supportgebühren, und die Zusammenarbeit zwischen Blue Iron und Zadara gewährleistete Kontinuität ohne Verzögerungen oder übermäßige Kosten.

Zusätzliche Ressourcennutzung wurde in Rechnung gestellt nur stundenweise und streng auf der tatsächlichen Nutzung basieren. Nachdem der Notfall abgeklungen war und die temporären Dateisysteme entfernt wurden, kehrte der Ressourcenverbrauch schnell auf das Ausgangsniveau zurück. Das Ergebnis:

  • Die Gesamtkostenbelastung war minimal, wobei es in diesem Monat nur zu einem vorübergehenden Anstieg der Nutzung kam.
  • Es gab keine überraschenden Gebühren oder Supportüberschreitungen.
  • Die Stadt bewahrte die Vorhersehbarkeit des Haushalts, selbst während eines Hochdruck-Rückgewinnungsvorgangs.

Dieses flexible Pay-as-you-use-Modell erwies sich nicht nur als skalierbar, sondern auch finanziell nachhaltig, und bietet Gemeinden wie Mont Belvieu eine praktische Möglichkeit, Nachfragespitzen zu bewältigen, ohne sich zu sehr mit der Infrastruktur zu befassen oder versteckte Kosten zu verursachen.

Suchen Sie nach weiteren Kundengeschichten?