HP sunucularının otomatik donanım testi?


9

Sağlama sunucularının bir parçası olarak, donanımı test etmek için HP'nin Insight Diagnostics programını çalıştırıyoruz. Bu elle yapılan bir işlemdir. Insight Diagnostics'in çalışmasını otomatikleştirmenin bir yolu var mı?

"-Rd:" "Tüm teşhis edilebilir cihazların teşhisini çalıştır" seçeneğine sahip hpdiags yazılımı vardır. Testlerimden bu fazla bir şey yapmaz (sadece disklerden SMART bilgilerini okur). Bununla daha iyi şansı olan var mı?

Donanım: HP ProLiant BL460c blade'lere sahip BladeCenter c7000, DL360s.

İşletim Sistemi: ESXi and Ubuntu.


2
Kısa cevap, bunu geniş ortamlarda yapmak için uğraşmam. İzleme ve yerleşik tanılama yeterlidir. Ancak kullandığınız sunucu modelleri hakkında bilgi verebilir misiniz? Ve belki de ilgili işletim sistemleri.
ewwhite

Bileti istenen bilgilerle güncelledim.
Mark Wagner

ESXi'nin HP'ye özgü sürümlerini mi yüklüyorsunuz? Ubuntu sistemlerine HP Management Agent yüklüyor musunuz? Sunucular hangi nesil (ler) dir? G6? G7? Gen8?
ewwhite

HP yönetim aracıları hem ESXi hem de Ubuntu'ya yüklenir. Sunucular Gen8 ve Gen9 olacaktır.
Mark Wagner

8
I updated the ticket with the requested info- O beni güldürdü. Bu yardım masası değil.
joeqwerty

Yanıtlar:


8

Başka bir soru soracağım:

Hazırlamadan önce sunucularda HP Insight donanım tanılamasını çalıştırmak neden gereklidir?

Yukarıdaki yorumumda, bunu büyük HP ProLiant ortamlarında önleyici olarak yaparak kazanılacak çok az şeyin olduğunu belirttim. Bununla ilgili düşüncelerimi netleştirmeliyim ...

Azalan sıklık sırasına göre, genellikle karşılaşacağınız sorun türlerine bakalım:

  • Depolama dizisi ve diskler : RAID denetleyicisi işletim sistemine, günlüklere, SNMP'ye, e-postaya, ILO'ya rapor verir ve sağlığı göstermek için güzel ışıkları yakar .

  • RAM : POST işlemi, RAM durumunu ve ayrıca işletim sistemine, günlüklere, SNMP'ye, e-postaya, ILO'ya rapor veren sistemi ve ön panel Systems Insight Display'de (SID) bir LED göstergesi aydınlatır . Ayrıca, bu sistemlerin hata tespiti zaten sağlam olduğundan RAM yazma işlemlerinin hayranı değilim .

  • Termal ve fanlar : Sunucu sıcaklığı ve fan hızı ILO tarafından düzenlenir. Bu sistemlerde 30+ sıcaklık sensörü vardır, bu nedenle soğutma sistemi son derece verimlidir. Bu hala işletim sistemine, günlüklere, SNMP'ye, e-postaya ve SID'ye rapor verir.

  • Güç Kaynağı : PSU durumu, işletim sistemine, günlüklere, SNMP'ye, e-postaya ve SID'ye ve ayrıca gerçek güç kaynağı ünitesindeki gerçek bir gösterge ışığına bildirilir.

  • Genel sağlık : İç Sağlık ve Dış Sağlık LED'ine ek olarak, SID ekran ile bir bakışta değerlendirmek kolaydır. Bu aynı zamanda sunucunun günlükleri, SNMP, e-posta ve ILO'ya da bildirilir.

resim açıklamasını buraya girin

Çalışma zamanı veya işletim sistemi sonrası yükleme sırasında bildirilemeyen / bildirilemeyen dağıtım öncesi bulunacak herhangi bir durumu düşünemiyorum.

Tanılama döngüsü, önceden açık bir sorunu olmayan bir sistemde çalıştırıldığında genellikle hiçbir şey bulamaz. Bunun nedeni, sunucunun yardımcı programı çalıştırmak için POST ve yardımcı programa veya Akıllı Hazırlama ürün bilgisine önyükleme yapması gerektiğidir.

Başka bir deyişle, sunucu için ciddi bir "SPOF" olabilecek herhangi bir öğe, büyük olasılıkla sistemin kendi kendini tanılamasını çalıştırmasını engelleyecektir.

En yaygın arıza öğeleri hala oldukça sağlamdır; diskler RAID olmalı ve çalışırken takılabilir olmalıdır. Fanlar ve güç kaynakları da çalışırken değiştirilebilir. RAM'inizin ECC eşikleri vardır ve çoğu ProLiant platformu için çevrimiçi yedek seçenekler vardır. Teşhis çalıştırarak bu bileşenlerde hata oluşturmak için yapabileceğiniz hiçbir şey yoktur. Dahili yedekleri olan HP C7000 Blade muhafazaları kullandığınız gerçeğini de ekleyin ve arıza durumunuz oldukça düşük olmalıdır.


Sorun, işletim sistemi kurulumundan sonra (a) sunucu üretilirse (a) hata tespit edilirse, (b) onarım çevrimiçi yapılamıyorsa veya arızalı bileşen sunucu için bir SPOF ise ve (c) sunucu bir SPOF ise, kesinti süresiyle karşılaşırsınız (hemen ya da sistem onarım için kaldırıldığında). Sonucu önlemek için koşullardan birini önlemeniz gerekir. Üretim öncesi hatayı tespit ederek (a) 'ya gidiyordum. Raporlama yeteneklerini detaylandırma konusundaki titizliğiniz için teşekkür ederim, ancak onları ilk etapta bildirme ihtiyacını önlemek istiyorum çünkü gerçekleşmiyorlar.
Mark Wagner

HP tanılama döngüsü, sunucunun tanılamayı çalıştırmak için POST yapması ve yardımcı programa veya Akıllı Hazırlama'ya önyükleme yapması gerektiği göz önüne alındığında muhtemelen hiçbir şey bulamaz . En yaygın arıza öğeleri oldukça sağlamdır; diskler, fanlar ve güç kaynakları çalışırken değiştirilebilir, RAM'in ECC eşikleri vardır. Bu bileşenlerde hata oluşturmak için yapabileceğiniz hiçbir şey yoktur.
ewwhite
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.