Bıçak Şasi Arızası Olasılığı


48

Organizasyonumda raf tipi sunucular yerine blade sunucu satın almayı düşünüyoruz. Tabi teknoloji satıcıları da seslerini çok güzel kılıyor. Farklı forumlarda çok sık okuduğum bir endişe, sunucu kasasının düşmesine ilişkin teorik bir olasılık olduğudur - sonuçta tüm bıçakları aşağıya çeker. Bu ortak altyapı kaynaklanmaktadır.

Bu olasılık üzerindeki tepkim, fazlalık ve bir yerine iki şasi ile gerçekleşmesi olacaktır (elbette çok pahalıydı).

Bazı insanlar (örneğin, HP Satıcıları dahil) bizi, çok fazla işten çıkarma nedeniyle (yedek güç kaynağı vb.) Şasinin başarısız olma ihtimalinin çok düşük olduğu konusunda ikna etmeye çalışırlar.

Benim tarafımdaki diğer bir endişe ise, eğer bir şey olursa, yedek parçaların gerekli olabileceği - ki bu bizim yerimizde zor olan (Etiyopya).

Böylece, blade sunucusunu yönetmiş deneyimli yöneticilere sorardım: Sizin deneyiminiz nedir? Bir bütün olarak düşüyorlar mı - ve başarısız olabilecek mantıklı paylaşılan altyapı nedir?

Bu soru paylaşılan depolamaya genişletilebilir. Yine, sadece bir tane yerine iki depolama birimine ihtiyacımız olduğunu söyleyeceğim - ve yine satıcılar, bunun çok sağlam olduğunu ve hiçbir hata beklenmeyeceğini söylüyorlar.

Eh - bu kadar kritik bir altyapının fazlalık olmadan çok güvenilir olabileceğine inanmıyorum - ama belki de, bıçak uçlu projelerinizde başarılı olup olmadığını, çekirdek parçalarında fazlalık olmadan çalışanların (şasi, depolama ... )

Şu anda, HP'ye bakıyoruz - IBM çok pahalı görünüyor.


3
Harika soru Cevabımı ve bazı gerçek yaşam başarısızlık senaryolarını bugünden sonra yayınlayacağım.
12'de

Dell'in C sunucularında neler olduğuna baktınız mı? örneğin C6100, 4 yuvalı bıçak kasasına eşdeğer bir 2U kutuda 4 düğüme sahiptir. Bir adet 10U blade kasa yerine beş adet 2U raf tipi sunucu alabilirsiniz. Artık tek bir başarısızlık noktası değil, arka panel avantajlarını kaybedersiniz. Muhtemelen HP / IBM eşdeğer bir ürüne sahiptir.
jqa

Yanıtlar:


49

Tamamen şasi arızası olasılığı düşüktür ...

Bir blade muhafazasının tam olarak arızalanmasını sürdürmeden önce, tesisinizde büyük olasılıkla karşılaşırsınız .

Deneyim, öncelikle HP C7000 ve HP C3000 blade muhafazaları ile ilgilidir. Ayrıca Dell ve Supermicro blade çözümlerini de yönettim. Satıcı biraz önemli. Ancak özet olarak, HP donanımı yıldız, Dell iyi durumda ve Supermicro kalite, esneklikten mahrum ve sadece kötü tasarlanmış. HP ve Dell tarafında hiçbir zaman başarısız olmadım. Supermicro'nun bizi platformdan vazgeçmeye zorlayan ciddi kesintileri vardı. HP'nin ve Dells'in üzerinde, tam bir kasa arızası ile karşılaşmadım.

  • Termal olaylarım oldu. İklimlendirme tesisi bir lokasyondaki tesiste, 10 saat boyunca 115 ° F / 46 ° C'ye sıcaklık gönderilemedi.
  • Güç dalgalanmaları ve hat arızaları: A / B beslemesinin bir tarafını kaybediyor. Bireysel güç kaynağı arızaları. Blade kurulumlarımda genellikle altı güç kaynağı var, bu yüzden bol miktarda uyarı ve fazlalık var.
  • Bireysel blade sunucusu hataları. Bir sunucunun sorunları, kasadaki diğerlerini etkilemez.
  • Şasi içi bir yangın ...

Çeşitli ortamlar gördüm ve ideal veri merkezi koşullarında ve bazı zorlu konumlarda kurulum yapma avantajım oldu. HP C7000 ve C3000 tarafında, dikkate alınması gereken en önemli şey şasinin tamamen modüler olduğu. Bileşenler, tüm birimi etkileyen bir bileşen arızasının etkisini en aza indirecek şekilde tasarlanmıştır.

Şöyle düşünün ... Ana C7000 şasisi ön, (pasif) orta ve arka panel düzeneklerinden oluşur. Yapısal mahfaza, ön ve arka bileşenleri bir arada tutar ve sistemlerin ağırlığını destekler. Neredeyse her bölüm değiştirilebilir ... inan bana, birçokını söktüm. Ana fazlalıklar fan / soğutma, güç ve ağ yönetimidir. Yönetim işlemcileri ( HP'nin Onboard Administrator ) yedeklilik için eşleştirilebilir, ancak sunucular onlarsız çalışabilir.

görüntü tanımını buraya girin

Tam doldurulmuş mahfaza - önden görünüm. Alttaki altı güç kaynağı kasanın tüm derinliğini çalıştırıyor ve kasanın arkasındaki modüler güç arka panel düzeneğine bağlanıyor. Güç kaynağı modları yapılandırılabilir: örn. 3 + 3 veya n + 1. Dolayısıyla, mahfaza kesinlikle güç fazlalığına sahiptir. görüntü tanımını buraya girin

Tam doldurulmuş mahfaza - arka görüş. Arkadaki Virtual Connect ağ modülleri dahili bir çapraz bağlantıya sahiptir, bu yüzden bir tarafını ya da diğerini kaybedebilir ve sunuculara ağ bağlantısını hala koruyabilirim. Altı adet çalışırken değiştirilebilir güç kaynağı ve on adet çalışırken değiştirilebilir fan vardır. görüntü tanımını buraya girin

Boş muhafaza - önden görünüm. Muhafazanın bu kısmı için gerçekten hiçbir şey olmadığını unutmayın. Tüm bağlantılar modüler orta düzleme geçer. görüntü tanımını buraya girin

Orta yüz düzeneği kaldırıldı. Alttaki orta düzlem düzeneği için altı güç beslemesine dikkat edin. görüntü tanımını buraya girin

Orta düzlem düzeneği. Sihir yapılan yer burasıdır. 16 ayrı alt panel bağlantısına dikkat edin: her blade sunucu için bir tane. Tek tek sunucu soketleri / bölmeleri tüm kasayı öldürmeden veya diğer sunucuları etkilemeden başarısız oldu. görüntü tanımını buraya girin

Güç kaynağı arka panelleri. Standart tek fazlı modülün altında 3ø ünite. Veri merkezimdeki güç dağıtımını değiştirdim ve yeni güç dağıtım yöntemiyle uğraşmak için güç kaynağı arka panelini değiştirdim. görüntü tanımını buraya girin

Şasi konnektörü hasarı. Bu özel mahfaza, montaj sırasında pimleri bir şerit konektöründen kırarak düşürüldü. Bu durum günlerce fark edilmeden geçti, çalışan bıçak kasası YANGIN'ı yakaladı ... görüntü tanımını buraya girin

İşte orta düzlem şeridi kablosunun kömürleşmiş kalıntıları. Bu, bazı şasi sıcaklık ve ortam izlemesini kontrol etti. Blade sunucular, olaysız çalışmaya devam etti. Etkilenen parçalar, planlanan kapalı kalma süresi boyunca boş zamanlarımda değiştirildi ve her şey yolunda gitti. görüntü tanımını buraya girin


C7000 için +1. Son iki yıldır sağlam olan bir kişi vardı ve mahfaza veya bıçaklar üzerinde hiçbir zaman donanım veya performans konusunda herhangi bir sorun yaşamadık.
tombull89

1
Bununla aynı fikirdeyim - Dell'den çeşitli bıçak şasilerimiz vardı ve bunlar oldukça kurşun geçirmez. Bir şasi üzerinde bir denetleyici modülünün arızalandığını düşünüyorum ve bunun net sonucu, dell desteğinin bize başka bir denetleyici ve bir mühendis uyacak şekilde göndermesi için geçen gün boyunca şasiyi uzaktan yönetemediğimizdir. Denetleyicinin değiştirilmesi nedeniyle yapılan arıza ya da işlemden dolayı gerçek bıçak duruş süresi yok.
Rob Moir

1
@Beyaz ile aynı fikirdeyim. Şaside herhangi bir arıza olmadan durmadan 8 yıldır durmadan c7000 kullanıyorum. HVAC yetmezliği nedeniyle birkaç saat boyunca 130'F'de çalıştırdık ve hiçbir şey başarısız olmadı. Akılda tutulması gereken en önemli şey, güç yüklerinizi birden fazla güç paneline ayırdığınızdan ve tek bir arıza noktasını ortadan kaldırmak için ağınızı birden fazla anahtarın üzerine ayırdığınızdan emin olmaktır. Şimdiye kadar kötü gittiğimiz tek şey bazı blade sunucu sabit diskleri, ancak bunu geleneksel sunucularda da görüyorsunuz.
mrTomahawk

20

Sekiz yıldır küçük sayıda blade sunucuyu yönetiyorum ve henüz birkaç blade'i çevrimdışı alan sistem çapında bir hatam olmadı. Güçle ilgili sorunlardan dolayı gerçekten çok yaklaştım, ancak henüz dış kaynaklardan kaynaklanamayan bir şasi genelinde bir arıza yaşamadım.

Şasinin tek bir başarısızlık noktası oluşturduğuna dair gözleminiz doğrudur, ancak bugünlerde çok fazla fazlalık inşa etmişlerdir. Kullandığım tüm bıçak sistemleri bıçaklara paralel güç beslemelerine sahipti ve çoklu ağ jakları ayrı yollardan ve Fiber-kanal durumunda bıçaktan raf arkası optik portlara kadar birçok yoldan geçiyor. Şasi bilgi sisteminin bile birden fazla yolu vardı.

Uygun ağ mühendisliği ile (yedekli NIC kullanımı, depolama için MPIO) tek sorunlu olaylar tümüyle hayatta kalabilir. Bu sistemler ile ilgili zamanlarımda aşağıdaki problemleri yaşadım, bunların hiçbiri birden fazla bıçağı etkilememiştir:

  • İki güç kaynağı blade rafında bozuluyor. Diğer 4'te yükü desteklemek için yeterli fazlalık vardı.
  • 3 fazlı bir güç kaynağı için bir fazın kaybedilmesi. Bu tedarikler bugünlerde nadirdir, ancak diğer iki faz yükü desteklemeye yetecek kapasiteye sahipti.
  • Şasi arası yönetim döngüsünü kaybetmek. Başka bir aramada bir satıcı teknisyeni bunu fark etmeden önce yıllarca böyleydi.
  • Şasiler arası yönetimin kaybedilmesi tamamen döngüler. Yönetim konsolu erişimini kaybettik, ancak sunucular yanlış bir şeymiş gibi çalışmaya devam etti.
  • Birisi yanlışlıkla raf tipi ağ arka panelini yeniden başlattı. Bu kasadaki her şey yedek NIC kullanıyordu, bu nedenle servis kesintileri yaşanmadı; tüm trafik diğer arka panele taşındı.

TomTom'un maliyet konusundaki noktası çok doğru. Tam maliyete ulaşmak için bıçak kasanızın tamamen yüklenmesi ve raf arkası anahtarları gibi özel şeyler kullanmaması gerekir. Bıçak rafları, yoğunluğa gerçekten ihtiyaç duyduğunuz alanlarda bir anlam ifade eder çünkü alan kısıtlaması vardır


Bunun dışında, SuperMicro Twin mimarisi size TU başına iki bilgisayarı, bilgisayar başına iki soketi sağlar - bu, MOST bıçaklarıyla elde ettiğinize benzer. kesinlikle çok yoğundur;) Bildiğim tek yüksek yoğunluklu sarmaşık köprüsünü kullanan Dell bıçakları ... ama kıyaslamada daha sınırlı.
TomTom

@tomtom ama supermicro ikiz gereksiz psus sunuyor mu? Yeni bir tane yaptık ve bu seçeneği hiçbir yerde görmedim. Elimizde olması için soğuk yedek psu aldık.
Jeff Atwood,

@JeffAtwood, SuperMicro'nun 1U ikizlerinde yedekli PSU'lar görmedim, ancak 2U 4 düğümlü ikiz ikizlerin çizgileri bunlarda var. Örnek .
Charles

Ayrıca, kimin umrunda. Rafta yedek bir güç kaynağı bulundurun. Değişim saniyeler sürer.
TomTom

14

Bu soru paylaşılan depolamaya genişletilebilir. Yine, sadece bir tane yerine iki depolama birimine ihtiyacımız olduğunu söyleyeceğim - ve yine satıcılar, bunun çok sağlam olduğunu ve hiçbir hata beklenmeyeceğini söylüyorlar.

Aslında hayır. Şimdiye kadar mantıklı olan endişeleriniz var, bu cümle onları “gözünüzün önündeki şeyleri okumak” içine alıyor. Tam çoğaltmalı HA, depolama birimleri için bilinen bir kurumsal özelliktir. Bir SAN (Depolama birimi, sonunda sadece "aptal metal" olan bir bıçak kasasından çok daha karmaşıktır. Bazı arka planlar hariç, bir bıçak kasasındaki her şey değiştirilebilir - tüm modüller vb. Değiştirilebilir ve tek tek bıçaklar ARE başarısız olmasına izin verilir Kimse bıçak merkezinin kendi içinde bıçaklara yüksek kullanılabilirlik sağladığını söylemez.

Bu, zamanın% 100'ünde olması gereken bir SAN'dan çok farklı - tutarlı bir durumda - orada çoğaltma vb. Gibi şeyler var.

BU DEDİ: numaralarını izle. Şimdi bir süredir bıçak satın almayı düşündüm ve ASLA FİNANSAL HİÇBİR YAPMAYIN. Kasa çok pahalı ve bıçaklar normal bilgisayarlara göre daha ucuz değil. SuperMicro Twin mimarisine alternatif olarak bakmayı öneririm.


İkizler ve ikiz ikizler (2U 4-node) bıçaklara harika alternatiflerdir. Intel ayrıca bir dizi ikiz ve ikiz ikiz sunucu yapar.
Charles

@Charles Enew yağ ikizlerini biliyor musun? 4 U'da 8 makine;)
TomTom

Bir tane gördüm, ancak oynama ya da değerlendirme şansım olmadı.
Charles

4

Tecrübe ettiğim blade sunucular IBM'den. Bu belirli olanlar tamamen modülerdir ve yerleşik olarak çok fazla yedeklilik vardır. Öyleyse, eğer bir şey başarısız olacaksa, PSU veya modüler bir anahtar vb. Gibi bileşenlerden biri olacaktır.

IBM bıçaklarıyla çalıştığından beri daha önce tam bir başarısızlık görmemiştim.

Diğer markalarla da benzer şekilde inşa edileceğinden şüpheleniyorum.
Bir satıcıyla da konuşmak ve birçok okuma yapmak iyi bir fikirdir.
Bu büyük bir yatırımdır.


1

Aynı kasadaki birden fazla blade sunucu kesintisine neden olan arızalar, aynı rafta birden fazla sunucu kesintisine neden olan arızalarla karşılaştırılabilir (olasılıkla ve neden olarak).

Tek bir arıza noktasını en aza indirmek için ilk kurulum ( her biri yükün tamamını kaldırabilecek, her birinin yarısı yükü kaldırabilecek şekilde ayrı DC güç kaynaklarını çalıştıran iki ayrı AC güç kaynağı; iki ayrı ağ bağlantısı) Beklenen yükün tamamını kaldırabilir, vb.) ve kasadaki tüm bıçakları ya da raftaki tüm 2U sunucuları alan bir şey arasındaki fark çok azdır.


1

Farklı forumlarda çok sık okuduğum bir endişe, sunucu kasasının düşmesine ilişkin teorik bir olasılık olduğudur - sonuçta tüm bıçakları aşağıya çeker. Bu ortak altyapı kaynaklanmaktadır.

Aslında! Yaklaşık 5 yıl önce, iki HP Proliant p-Sınıfı blade muhafazasını yönetirken, birkaç kez şasi çapında sorunlarla karşılaştım.

Kapatıldıysa blade sunucularını açamadım (sunucular sık ​​sık kapatılmıyor, ancak bizim için çok gerçek bir sorun oldu). Sunucuları bir anda kapattım ve tekrar açamadım. Sonunda, tüm sunucuları kapattım ve bir daha açamadım.

Hatırladığım kadarıyla, hemen hemen tüm meseleler kötü güç arka planlarına ya da denetleyici arka planlarına bağlandı. Bunları birkaç kez değiştirdik ve teknisyenlerden aldığım kayıt dışı ve özel olmayan mesajlar, bu nesil blade muhafazaları ile ilgili problem paylarına sahip olduklarını belirttiler.

O zamanlar, gelecekteki alışverişlerde söyleyeceğim herhangi bir şey olsaydı blade sunucularının yararının riske değmediğine karar verdim.

Bir sonraki işverenime ve şu anki işverenime bu konuda hızlıca ilerleyin. Zaten çalışan HP Proliant c Sınıfı kasaları vardı, bu yüzden luke bıçaklarım için ısınma hissi gerçekten önemli değildi. C-Sınıfı muhafazaları ile ilgilendiğim 5 yıl boyunca, tüm bir muhafazanın üzerimde başarısız olduğu p-Class ile yaptığım gibi hiçbir şey yaşamamıştım. Büyük problemler olmadan koşuyorlar.

(Bir yağmur fırtınası çatıdan yağmur yağdı, 4 kat, bilgisayar odasının mührünün içine küçük bir delik, kablodan aşağıya ve şaseye yağdı.)


-1

DELL ve HP Blade kasalarının ikisinde de yedek orta düzlem yoktur. IBM Bladecenter'ın kazanan olduğunu kanıtladığı yer burasıdır. Bildiğim kadarıyla, yedekli bir orta düzlem sağlayan tek bıçak kasası. HP, bıçaklar için harika bir yönetim yazılımı paketi sunmasına rağmen, tüm kasanın tek bir arıza noktasını önlemek için şirketimiz için bir Bladecenter E satın aldık.


IBM pazarlama materyallerinin bana söylediği bu; tamamen yedekli bir bıçak çözümüne sahip tek satıcı olduklarını. Ancak bu konudaki diğer mesajları okuduktan sonra, HP çözümleri de bu özelliklere benziyor.
Martijn
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.