Donanım RAID denetleyicisi önbellek pil arızası frekansı / ömrü?


14

Adaptec ve LSI MegaRAID donanım RAID denetleyicileri ile donatılmış birçok Supermicro sunucusu içeren bir ortamdayım . Bu denetleyiciler yazma performansını artırmaya ve aktarılan verileri korumaya yardımcı olmak için pil destekli önbellek modülleri içerir.

Sık karşılaşılan destek sorunları RAID denetleyicisi pil arızasıdır. Bu kaymalar gelen dizi geri yazımı için içine yazma moduna. Sistem düşük yazma hızıyla çalıştığından açıkça olumsuz bir performans etkisi vardır. Bu, sistemi kapatmak ve pili değiştirmek için bir kesinti süresi açılana kadar devam eder.

Bu bizim için çok rutin bir işlem; neredeyse her hafta birkaç bin fiziksel sunucuda ... Yedek pilleri hazırlamak için şarj istasyonlarımız bile var, böylece şarj döngüsü olmadan değiştirilebiliyor.

Belki de HP ProLiant sunucuları ve Smart Array RAID denetleyicileriyle uzun bir geçmişe sahip oldum , ancak HP sistemlerinin pil ömrü genellikle 4-6 yıl idi. Sonunda 2009'da RAID pillerinin kullanımını ortadan kaldırdılar. Bunlar, süper kapasitör destekli bellek modülleriyle (flaş destekli yazma önbelleği veya FBWC) değiştirildi ve değiştirme, imha veya uzun bir başlangıç ​​şarj döngüsü gerektirmiyorlar.

12 aydan daha az bir süredir hizmette olan sistemlerde bazen Adaptec ve LSI denetleyici pil arızalarını gördüğüm için , bunun diğer ortamlarda yaygın olup olmadığını merak ediyorum.

Bu yaygınsa, diğer büyük sunucu ortamları bunu nasıl ele alır?

  • RAID pil değiştirmelerini işlemek için herhangi bir ipucu veya püf noktası var mı?
  • Yardımcı olabilecek herhangi bir yapılandırma parametresi var mı?
  • Bu , çevrenizdeki operasyonlar için ne kadar yıkıcı ?
  • Kötü şasi soğutması ve sıcaklık bir faktör olabilir mi?
  • Yanlış bir şey mi yapıyoruz?
  • Dell PERC denetleyicileri LSI tarafından üretilmiştir. Dell ortamlarında aynı kısa pil ömrü yaşanıyor mu?

1 yıldan daha uzun süre dayanabilen yeni nesil bir pilin ana hatlarını çizen LSI ürün literatürü. resim açıklamasını buraya girin

1000+ gün çalışma süresi ve mutlu bir RAID pili olan HP ProLiant DL585 G2 sunucusu ...

# uptime 
 05:38:08 up 1031 days, 44 min, 31 users,  load average: 0.49, 0.64, 0.99

# hpacucli
   Cache Board Present: True
   Cache Status: OK
   Accelerator Ratio: 50% Read / 50% Write
   Total Cache Size: 512 MB
   Battery Pack Count: 1
   Battery Status: OK

2
Sadece bir ipucu: Son nesil Adaptec denetleyicileri piller yerine süper kapaklar / flaş kullanır.
Sven

Oh, üreticilerin tüm Özel kapasitör tabanlı çözümler var farkındayım şimdi , ancak mevcut tesisat ayak izi dikkate alındığında, altyapı genelinde geniş değişiklik yapmak zor.
ewwhite

2
Bunu hiç yapmadım (muhtemelen kötü bir fikir gibi geliyor ve sorunu sizin kadar sık ​​görmedim), ancak açıkken bir test sunucusunda bir RAID pilini değiştirmeyi deneyebilirsiniz . Dışarı doğru kaydırın, kapağı çıkarın, bozuk pilin bağlantısını kesin ve iyi olanı, sonra rafa geri takın ... Her şey yolunda giderse, çalışmama süresini içermeyen yeni bir pil değiştirme işleminiz vardır.
Ağustos

2
@August Uhm, riskli prosedürler ilerledikçe, "OMG NEREDE VERİLERİM GİTMİŞTİR" listesinde oldukça yüksek geliyor.
Dan

2
Evet eminim ... Korkunç bir fikir gibi geldiğini kabul ediyorum, ancak durum ve kesinti süresi olmaması şartıyla, test sunucusunda (veya otuz test sunucusunda ...) denemeye değer olabilir. mümkün. Binlerce sunucuda tek tek RAID pillere dayanmamak için altyapıyı yeniden düzenlemenin yanı sıra başka bir seçenek var mı?
Ağustos

Yanıtlar:


9

Supermicros'unuzun şu ya da bu şekilde kırıldığından şüpheleniyorum - muhtemelen pil paketleri aşırı ısınıyor. En son LSI'lar sıcaklığı MegaCLI aracılığıyla rapor eder - değiştirilmesi gereken sunucularda bu değeri izlemek isteyebilirsiniz.

root@host:~/SOLARIS# ./MegaCli -AdpBbuCmd -GetBbuStatus -aALL

BBU status for Adapter: 0

BatteryType: BBU
[...]
Temperature: 41 C

LSI BBU denetleyicileri olan birkaç Dell ve Fujitsu sistemi gördüm, hiçbirinin yıllık pil paketi değişimi yoktu (paketi derin deşarj ile berbat etmeniz dışında). Tipik yaşam süresi yaklaşık 3 ila 5 yıldır.


4
Sistemin sürece eklersiniz AÇIKÇA RAID sıcak değiştirilmesini yetkisi BBU ben deniyorum olmaz. Bir sistemin RAID önbellek pilinin yıllık olarak değiştirilmesini gerektirdiğini hiç görmedim. 3-5 yıl tipik bir hizmet ömrüdür.
voretaq7

Sanırım anladın!
ewwhite

1

Ortalama pil ömrü 3-5 yıl olmalıdır. Flash tabanlı FBWC'nin de başarısız olduğunu unutmayın. Neden / nasıl olduğunu bilmiyorum, ancak HP sunucularımızda düzenli olarak peri yerine geçiyorduk. Pilden daha uzun süre dayanmalıyım, ancak bireysel sunucularımızdan istatistiklerim yok.

Başarısız pil ve pil öğrenmenin etkilerini önlemenin standart yolu, birden fazla pil bulundurmaktır. HP depolamada (HP EVA gibi) bu şekilde bulunur. 2 adet çalışırken takılabilir piliniz var ve biri düşük şarjlı veya değiştirilirken denetleyici kalan pil ile çalışır. SmartArray'a bağlı birden fazla pilin mümkün olup olmadığından emin değilim, ancak hpacucli diagçıkış desteklenmesi gerektiğini gösteriyor:

Battery 1 firmware is up to date.
Battery 2 not present.
Battery 3 not present.

Battery Status:    Battery 1      Battery 2      Battery 3
---------------    ---------      ---------      ---------
Present:              YES             NO             NO
Responding:           YES            N/A            N/A
PIC Revision:          52              .              .         
Status:              0x80              .              .         
Extra Status:        0x01              .              .         
   Enabled:         FALSE              .              .         
   Charging:        FALSE              .              .         
   Good:             TRUE              .              .         
   Open:            FALSE              .              .         
   Shorted:         FALSE              .              .         
   Sample Err:      FALSE              .              .         
Control:             0x00              .              .         
Load Current: (0x70) 24.6mA            .              .    
   Per Memory Chip:  4920uA            .              .         
Voltage:      (0xae) 5640mV            .              .         
Capacity:             100%             .              .         
Depletion count:     0x00              .              .         

1

Birkaç yüz yüklemeden fazla LSI platformlarının IBM sürümleriyle yaşadığım deneyim, ortalama pilin neredeyse 2 yıl kazandığını ve üst kapağın daha iyi olmadığını, bazıları bir ürün yazılımı güncellemesiyle düzeltilebildiğini, ancak LSI'nın sahip olmadığı sağ. İlk 2 yılda yaklaşık% 75 supercap hatası yaşadım.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.