Yıldırım çarpmasından sonra ekipman hasarlarını değerlendirme - Daha fazla mı planlamalı mıydım?


55

Müvekkilimin sitelerinden biri geçen hafta doğrudan tesadüfi aldı (tesadüfen 13'üncü Cuma günü! ).

Siteye uzaktaydım, ancak yerinde çalışan birisiyle çalışırken garip bir hasar şekli keşfettim. Her iki internet bağlantısı da kapalıydı, çoğu sunucuya erişilemiyordu. Hasar çok oluştu MDF , ama bir lif-bağlı IDF da bir anahtar yığını elemanı üzerinde bağlantı noktaları% 90 kaybetti. Başka yerlere kabloları yeniden dağıtmak ve yeniden programlamak için yeterli yedek anahtar bağlantı noktası mevcuttu, ancak etkilenen cihazları kovalarken bir süre duruldu.

Bu yeni bir bina / depolama tesisi idi ve sunucu odasının tasarımına çok fazla planlama yapıldı. Ana sunucu odası, bir jeneratör tarafından desteklenen APC SmartUPS RT 8000VA çift ​​dönüşümlü çevrimiçi UPS'ten çalıştırılmaktadır. Bağlı tüm ekipmana uygun güç dağıtımı yapıldı. Şirket dışı veri çoğaltması ve sistem yedeklemeleri yapıldı.

Sonuçta (bildiğim kadarıyla) hasar:

  • Cisco 4507R-E kasa anahtarı üzerinde 48 portlu hat kartı başarısız oldu .
  • 4 üyeli bir yığında Cisco 2960 anahtarı başarısız oldu. (ayy ... ... istifleme kablosu gevşek)
  • Cisco 2960 anahtarında çeşitli lapa lapa portlar.
  • HP ProLiant DL360 G7 anakart ve güç kaynağı.
  • Elfiq WAN bağlantı dengeleyicisi.
  • Bir Multitech faks modem.
  • WiMax / Sabit kablosuz internet anteni ve güç enjektörü.
  • Çok sayıda PoE bağlantılı cihaz (VoIP telefonları, Cisco Aironet erişim noktaları, IP güvenlik kameraları)

Bu sorunların çoğu Cisco 4507R-E'deki bütün anahtar bıçaklarını kaybetmeye bağlıydı. Bu, bazı VMware NFS ağlarını ve sitenin güvenlik duvarına giden bağlantıyı içeriyordu. Bir VMWare ana bilgisayarı başarısız oldu, ancak HA, depolama ağı bağlantısı geri yüklendikten sonra VM'nin hizmetine baktı. Korkak güç durumlarını temizlemek için bir dizi cihazı yeniden başlatmak / kapatmak zorunda kaldım. Yani iyileşme zamanı kısaydı, ama hangi derslerin alınması gerektiğini merak ediyorum.

  • Gelecekte ekipmanı korumak için hangi ek korumalar uygulanmalıdır?
  • Garanti ve değişime nasıl yaklaşmalıyım? Cisco ve HP sözleşme kapsamındaki ürünleri değiştiriyor. Pahalı Elfiq WAN bağlantı dengeleyici, web sitelerinde temel olarak "çok kötü, bir ağ dalgalanma koruyucusu kullanın" diyen bir bulanıklığa sahiptir . (bu tür bir başarısızlık bekledikleri anlaşılıyor)
  • Geçmişte elektrik fırtınası hasarı ile karşılaşacak kadar uzun zamandır BT’de bulundum; örneğin, ucuz bir PC'nin ağ arayüzü veya mini anahtarların imhası.
  • Potansiyel lapa lapa ekipmanı tespit etmek için yapabileceğim başka bir şey var mı, yoksa garip davranışların ortaya çıkmasını beklemek zorunda mıyım?
  • Bunların hepsi kötü şans mı, yoksa felaket kurtarmasında gerçekten dikkate alınması gereken bir şey mi?

Yeterli $$$ ile, her türlü işten çıkarmaları bir çevreye inşa etmek mümkündür, ancak önleyici / düşünceli tasarım ve kaynakların etkin kullanımı için makul bir denge nedir?


3
Aşağıda bazı iyi teknik cevaplar var, ama benim tecrübeme göre hiçbir şey iyi bir sigorta poliçesini yenemez. Kelimenin tam anlamıyla, bir sigorta poliçesi. Elbette, sorundan kaçınmaya yardımcı olmaz ve müşterilerin size çığlık atmasını durdurmaz, ancak satıcının dokunmayacağı arızalı ekipmanı değiştirmede yardımcı olur.
Mark Henderson

@MarkHenderson Insurance geliyor ... ama 6 hafta geçti ve şimdi bazı küçük sorunlar ortaya çıkıyor.
ewwhite

Yanıtlar:


23

Birkaç işten önce, çalıştığım yerin veri merkezlerinden biri, çok büyük bir anten altındaki bir kat idi. Bu büyük, ince, metal eşya bölgedeki en uzun şeydi ve her 18 ayda bir yıldırım çarptı. Veri merkezinin kendisi 1980 civarında inşa edildi, bu yüzden etrafına en modern şey demedim, ancak yıldırım hasarları ile ilgili uzun deneyime sahiplerdi (seri iletişim kurulları her seferinde değiştirilmeliydi , ki bu, eğer bir deneme olursa tahtalar, 10 yılda yapılmış yeni parçaları olmayan bir sistemdedir).

Eski eller tarafından yetiştirilen tek şey, bu sahte akımın her şeyin etrafında bir yol bulabilmesi ve bir kez köprülendiğinde ortak bir yerde yayılabilmesidir. Hava boşluklarından köprülenebiliyor. Yıldırım, normal güvenlik standartlarının yayları önleyecek kadar iyi olmadığı ve enerjiye sahip olduğu sürece, istisnai bir durumdur. Ve çok şey var. Yeterli enerji varsa, asma tavan ızgarasından (belki de askı tellerinden biri, çimentodaki bir bina kirişine bağlı bir halkadan asılır) 2 direkli rafın üstüne ve oradan içine ağ özellikleri.

Bilgisayar korsanları gibi yapabileceğin çok şey var. Güç beslemenizin hepsinde sahte voltajları kıran kırıcılar var, ancak düşük voltajlı ağ donanımınız neredeyse hiç yapmıyor ve enerjik bir akımın yönlendirmesi için ortak bir yolu temsil ediyor.


Potansiyel lapa lapa kitini tespit etmek teoride nasıl yapıldığını bildiğim bir şeydir, gerçekte değil. Muhtemelen en iyi bahis, şüpheli teçhizatı bir alana koymak ve odadaki sıcaklığı Kasten Çalışma Alanının en yüksek noktasına getirmek ve ne olduğunu görmektir. Bazı testler yapın, halttan çıkarın. Birkaç gün orada bırak. Önceden var olan herhangi bir elektrik hasarına uygulanan termal stres bazı zaman bombalarını kaldırabilir.

Kesinlikle bazı cihazlarınızın ömrünü kısalttı, ancak hangisinin zor olduğunu bulmak. Güç kaynakları içindeki güç koşullandırma devresi tehlikeye girmiş bileşenlere sahip olabilir ve sunucuya kirli güç sağlıyor olabilir; bu, yalnızca güç kaynaklarını test etmek için tasarlanmış özel aygıtların kullanılmasıyla tespit edebileceğiniz bir şeydir .


Yıldırım çarpması , çatı üzerinde dev bir paratoner bulunan bir tesiste DC'nin olması dışında DR için düşündüğüm bir şey değil . Genel olarak, grev, çok nadiren gerçekleşen şeylerden biridir ve 'tanrı'nın eylemi' altında karıştırılır ve devam eder.

Ama ... şimdi bir tane vardı. Tesisinizin en az bir kere doğru şartlara sahip olduğunu gösterir. Tesisinize ne kadar eğilimli olduğu konusunda bir değerlendirme yapmanın zamanı geldi ve buna göre plan yapın. Şimşek şimdinin sadece DR etkilerini düşünüyorsanız, bunun uygun olduğunu düşünüyorum.


Dün değerlendirmek için sahaya girdim. Dağınık. Şasi anahtarını tamir ettim ve bazı sunucuların hasarlarını kontrol ettim. Çatıda WiMax / Sabit-Kablosuz anten giriş noktası olma ihtimali var mı? Antenna->PoE injector->WAN link balancer->Firewall->Dead Cisco 4507 linecard
Yolundaki

1
Bu sesler ... oldukça muhtemel.
mfinni

1
@wwhite Kulağa çok muhtemel geliyor. Bu eski DC'nin vurulduğu zarar çok benzerdi.
sysadmin1138

Sysadmin1138'in gönderisine biraz bilgelik eklemek isterim (özür dilerim henüz yorum yapamadım, bunun bir cevap olmasını istemedim) ... Güç kablolarındaki topraklama pimleri cihazlarınız için değil İNSAN güvenliği içindir. Küçük ofislerde; Önemli makineleri topraktan (tahta kutu, kauçuk paspas) ve topraklanmamış konektörler / adaptörler UPS-> Wall'dan uzak tutuyorum. OSHA’dan nefret ediyorum ama bilgisayarlar buna bayılıyor. Aynı zamanda, akımın herhangi bir şeyi öldürebilmesi için girdinin enerjisinin kesildiği ve enerjilendiği zaman da yardımcı olur. Çok, çok büyük bir Libert UPS / Inverter patladığında bir
binadaydım

7

Önceden sayfanın en üstüne geri döndüğünden beri bu soruyu düşünüyorum.

DC çatısındaki büyük yıldırım çarpmalarına karşı oldukça çekici olan kurulumlarla uğraşmak zorunda olan sysadmin1138 gibi insanlar için, büyük bir grev için özel acil durum planlamasının mantıklı olacağını açıkça belirtmekteyim. Ancak çoğumuz için bu bir kereye mahsus bir durumdur ve geri kalanımız için daha uygun bir cevabın bir değeri olabileceğini düşündüm.

Her türlü film komplo tehdidini hayal etmek mümkün ; Kesinlikle meydana gelebilecek senaryolar, eğer olsaydı, ticari faaliyetlerinizi şüphesiz aşağıya çekerdi, ancak daha yüksek bir olma ihtimalinin olduğunu düşünmek için hiçbir neden yok. Bir şey türünü biliyorsun; yakındaki uçak grevi / şimşek / petrol deposu patlar / diğer olası ancak arka plan riski senaryosu.

Bunların her birinin, uygulamaya konabilecek özel bir azaltma planı vardır, ancak şunu söyleyebilirim: - yukarıdaki şartımı yerine getirmek - bunun mantıklı olmaması . Schneier, yukarıdaki bağlantılı rekabette işaret etmeye çalıştığından, sadece korkunç bir şey olduğunu hayal edebildiğiniz için, belirli planlamanın değerli ve hatta arzu edilebilir olduğu konusunda bir tehdit oluşturmaz. Ne yapar iyi iş mantıklı bir genel amaçlı, iyi belgelenmiş, test iş sürekliliği planıdır.

Kendinize işletme maliyetlerinin çeşitli zaman dilimlerinde (örneğin, 24 saat, 96 saat, bir hafta, bir ay) tam bir site kaybının ne olduğunu sormalısınız ve her bir oluşum olasılığını ölçmeye çalışmalısınız. İşin her seviyesi tarafından satın alınan dürüst bir işletme maliyet analizi olmalıdır. Kesinti için genel kabul görmüş rakamın 5.5 milyon £ / saat olduğu bir yerde çalıştım (ve 20 milyon yıl önce, beş milyon sterlin çok para olduğu zamanlardı); bu rakamın genel olarak kabul edilmesi, çok basit kararları çok daha kolay hale getirdi , çünkü basit bir matematik meselesi haline geldiler.

Bütçeniz, öngörülen zararın, bu zararın yıllık şansıyla çarpılmasıdır; Şimdi bu tehdit tehdidini azaltmak için neler yapabileceğinizi görün.

Bazı durumlarda, bu durum 24x7 kullanıma hazır, soğuk donanıma sahip tam bir bekleme veri merkezine gidecektir. Bu, küçük bir bekleme veri merkezi anlamına gelebilir, böylece müşteri etkileşimi çok az sayıda telefon operatörü ve yer tutucu bir web sitesi bozulma uyarısı ile devam edebilir. Ana sitenizde ikinci bir yedekli olarak yönlendirilmiş bir internet bağlantısı anlamına gelebilir ve ihtiyaç duyulana kadar soğuk kalır. Mark Henderson yukarıda da belirtildiği gibi sigorta anlamına gelebilir (ancak iş zararlarını ve gerçek kurtarma masraflarını kapsayan sigorta); BC bütçenizi, felaket durumunda beklenen tüm masraflarınızı karşılayacak tek bir kağıda harcayabiliyorsanız, o kâğıt parçasını satın almanız mantıklı olabilir - ancak sigortacının başarısızlığını hesaba katmayı unutmayın.iş risk planınıza. Bu, bazı çekirdek ekipmanlardaki bakım sözleşmelerinin, son derece pahalı olan dört saatlik tamir sürelerine yükseltilmesi anlamına gelebilir. İşiniz için neyin anlamlı olduğunu yalnızca siz bilirsiniz.

Ve bu plana sahip olduğunuzda, gerçekten test etmelisiniz (sigortaya dayalı olanlar hariç). Ana tesisimizden arabayla 45 dakika süren, küçük ölçekli işletmeli soğuk bir sitenin bulunduğu bir bölgede çalıştım. Çekirdek ağı kapattığımızda bir sorunla karşılaştığımızda, soğuk bölgeyi kesmek yerine canlı olarak düzeltmeye çalıştık ve sonraçekirdek sabitleme ve geri kesme. Kesilmemenin ardındaki sebeplerden biri, kesmenin ve kesmenin ne kadar süreceği hakkında hiçbir fikrimiz olmamasıydı. Bu nedenle, hiç kimse kesmeye karar vermeden önce işlerin kesintiye uğramadan ne kadar sürmesi gerektiğini gerçekten bilmiyordu, bu yüzden - oldukça anlaşılır şekilde - kesmeye karar verme konusunda çekingenlik vardı. Başımız 14 saat sonra tekrar çevrimiçi olduktan sonra yuvarlandı; kesinti nedeniyle değil , ancak böyle bir kesinti sırasında kullanılmayan bir günlük artı kesintiyi azaltmak için bir tesise çok fazla para harcanması nedeniyle.

Son bir nokta olarak, iş planınızın dış kaynaklı bileşenlerinin çalışmasının garanti edilmediğine dikkat edin . Üst yönetiminiz, " sunucuları bulutun içine koyarsak, her zaman orada olacağımızı ve sistem yöneticilerini kovabileceğimizi " düşünerek orada oturuyor olabilir . Öyle değil. Bulutlar her şey gibi başarısız olabilir; kritik bileşenleri bir tedarikçiye tedarik ettiyseniz, yaptığınız tek şey bu bileşenlerin arızalanma ihtimalini tahmin etme yeteneğinizi ortadan kaldırmaktır. SLA'ların hepsi gayet iyi, ancak önemli ölçüde performans dışı cezalarla desteklenmiyorlarsa, anlamsızlar - sağlayıcınız parayı sıkıntıya sokabiliyorsa ve hizmet ücretlerinizi bu süre için iade edebiliyorsa, kullanılabilir durumda kalmak için fazladan para harcadı mı? kullanılamazlık? Güvenilir olması için, SLA'larınızın, kesintilerinizin maliyetini işinize getiren cezalarla gelmesi gerekir. Evet, bu dış kaynak kullanım maliyetini artıracak; ve evet, bu tamamen beklenebilir.


2
Eklemeliyim ki ... bu site asıl ilanından bu yana üç kez yıldırım çarptı . Bunun nedeni tesisin bazı bölgelerinde yetersiz / varolmayan elektrik topraklamasına dayandı. Müteahhitlere dava açtık ve sigortalar yedeklerin büyük kısmını hallettiler.
ewwhite

2
Üzgünüm, yine de, açılış şartımın size de daha açık bir şekilde uygulanması gerekiyordu; Herhangi bir riskin arka plan üstünde olduğu yerlerde , en azından bu riske yönelik özel olarak azaltılmış azaltmayı göz önünde bulundurmak benim için mantıklı geliyor . Cevabım herkes için daha fazlaydı, sorunuzu okuyabilir ve " iyi, benim de yıldırım planım yok; belki de yapmalıyım " diye düşünmeye başlayabilirdi .
MadHatter

6

Her zaman ne kadar harcamak istediğinize bağlı. Bu konuda konuşacak kadar derin bir bilgim yok, ancak yıldırım düşmesi geçiren ve çoğaltılması gerekmeyen bir spikter tutucusu olduğu düşünülen büyük bir ilaç veri merkezinde bulundum (ve doğru tasarlanmış) , ama yanlış uygulandı, bu yüzden bir şeyler geçti.)

UPS'inizin önleyebileceği maksimum tepe noktası neydi? Bir derecelendirme olmalı. Görünüşe göre, grev, ya da UPS beslemesinin etrafına sızan bir şeyi kötü bir zemin gibi aşacak kadar doğrudanydı. Bu nedenle, belki de güç tasarımınızı gözden geçiriyorsunuz, başka bir saldırının ne kadar muhtemel olduğunu belirlemek, aksama süresinin X olma ihtimaline karşı düzeltmeye karşı maliyetini karşılaştırmak ve belki de bir elektrikçinin tesise her şeyin doğru bir şekilde topraklandığından emin olmak için iyi bir anket yapmasını sağladım - ve bazı hızlı okumalar gösteriyor güvenlik / kod için yapılan topraklamanın, yıldırımdan kaynaklanan hasarları önlemek için yapılan topraklama kadar yoğun olmadığını.


UPS iyi görünüyor. Binanın birçok bölümünde sorunlar vardı, ancak ana UPS teknik özellikleri "Tam zamanlı çok kutuplu gürültü filtreleme:% 0.3 IEEE dalgalanma
geçirgenliği

Tamam iyi geliyor. Şebeke beslemeniz katı ise, muhtemelen diğer yollardan gizlice girdi.
mfinni
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.