HP ProLiant DL360 G7, “Güç ve Termal Kalibrasyon” ekranında asılı


41

Yeniden üretilmesi zor bir sorun olan yeni bir HP ProLiant DL360 G7 sistemim var. Sunucu POST işlemi sırasında rasgele " Devam Eden Güç ve Termal Kalibrasyon ... " ekranında asılı duruyor . Bu genellikle yüklü işletim sisteminden bir sıcak önyükleme / yeniden başlatma izler.

görüntü tanımını buraya girin

Sistem bu noktada süresiz olarak durur. ILO 3 güç kontrolleri üzerinden sıfırlama veya soğuk başlatma yapılması, sistemin normal şekilde açılmasını önler.

Sistem bu durumda olduğunda, ILO 3 arayüzü tamamen erişilebilir durumdadır ve tüm sistem sağlığı göstergeleri gayet iyi (tümü yeşil). Sunucu, PDU’ya güç bağlantıları olan iklim kontrollü bir veri merkezindedir. Ortam sıcaklığı 64 ° F / 17 ° C'dir. Sistem, herhangi bir hata olmadan konuşlandırmadan önce 24 saatlik bir bileşen test döngüsüne yerleştirildi.

Bu sunucunun birincil işletim sistemi VMWare ESXi 5'tir. İlk olarak 5.0 ve daha sonra bir 5.1 derlemesi denedik. Her ikisi de PXE önyüklemesi ve kickstart ile konuşlandırıldı. Ayrıca, baremetal Windows ve Red Hat Linux kurulumları ile test ediyoruz.

HP ProLiant sistemleri, kapsamlı bir BIOS seçeneklerine sahiptir. Statik yüksek performans profiline ek olarak varsayılan ayarları da denedik. Önyükleme açılış ekranını devre dışı bıraktım ve yukarıdaki ekran görüntüsüne göre bu noktada yanıp sönen bir imleç elde ettim. BIOS yapılandırması için bazı VMWare "en iyi uygulamaları" da denedik . HP'den benzer bir sorunu ortaya koyan ancak belirli sorunumuzu çözmeyen bir danışmanlık gördük .

Bir donanım sorunundan şüpheleniyorum, satıcının aynı gün teslimat için aynı bir sistem göndermesini sağladım. Yeni sunucu, diskler hariç tamamen aynı bir yapıya sahipti. Diskleri eski sunucudan yenisine taşıdık. Yedek donanımda aynı rastgele önyükleme sorununu yaşadık.

Şimdi paralel çalışan iki sunucu var. Sorun sıcak botlara rastgele vurur. Soğuk botlar problemi gözükmüyor. Turbo Boost'u devre dışı bırakmak veya güç kalibrasyonu işlevini tamamen devre dışı bırakmak gibi daha ezoterik BIOS ayarlarından bazılarına bakıyorum. Bunları deneyebilirim, ancak gerekli olmamalıdır.

Düşüncesi olan var mı?

--Düzenle--

Sistem detayları:

  • DL360 G7 - 2 x X5670 Altı Çekirdekli İşlemci
  • 96 GB RAM (12 x 8 GB Düşük Gerilim DIMM'leri)
  • 2 x 146GB 15k SAS Sabit Sürücüler
  • 2 x 750W yedek güç kaynakları

ProLiant DVD sürümü için en son HP Servis Paketi'nden itibaren tüm bellenim günceldir.

HP'yi arayarak interwebz'i dolaşırken, kötü bir ILO 3 etkileşiminin sözünü gördüm, ancak bu fiziksel bir konsoldaki sunucuda da oluyor. HP ayrıca güç kaynağı da önerdi, ancak bu, diğer üretim sistemlerine başarıyla güç sağlayan bir veri merkezi rafında.

Bunun düşük voltajlı DIMM'ler ve 750W güç kaynakları arasında zayıf bir etkileşim olması ihtimali var mı? Bu sunucu desteklenen bir yapılandırma olmalıdır .


2
Diskleri olası bir neden olarak ortadan kaldırmanın bir yolu var mı? Bazı alternatif SAS veya SATA disklerle test etme şansınız var mı?
ErnieTheGeek

Evet, ikinci sistemde iyi bilinen bir disk seti ile test edilmiştir. Paralel koşuyorlar.
saat

1
Bunu gördüğüm tek zaman, depolama sağlamak için HP olmayan bir kart kullanmaya çalıştığım bir sistemdi (ayrıca bir DL360 G7). Hem SmartArray kartını hem de içerisindeki diğer kartını aldığımda bunu yaptı. İkisini de çıkardığımda geçti. Bu senin sorunun değil, ama karşılaştığım şeye değiniyorum.
sysadmin1138

1
Muhtemelen ağ ile ilgili bir şey? Ağa bağlanmadan çoğaltmayı deneyin.
ErnieTheGeek

1
@TheCleaner Dinamik Güç Sınırlandırmayı Devre Dışı Bırakma G7 sunucularında bir seçenek değildir. Gen8 ProLiant serisi için tanıtıldı.
saat

Yanıtlar:


43

Böylece, üçüncü bir sistemi karışıma dahil ettikten ve aynı sorunu yaşadıktan sonra çevreyi sorgulamaya başladık. HP ProLiant Sunucu Sorun Giderme Kılavuzu'nun bir kopyasını çıkardım ve aşağıda gösterilen POST sorunları akış şemasını buldum.

görüntü tanımını buraya girin

Grafikteki adımlardan dikkatlice geçerek, tüm sunuculardaki sabitin veri merkezi çarpma arabasına takılı bir KVM anahtarı olduğunu fark ettik. Bu tüketici sınıfı bir USB özellikli KVM idi. Akış şemasında vurgulanan düğüme göre, iyi bir KVM biliyor musunuz? , Kesin olarak cevaplayamadım.

Böylece, sunucuları KVM anahtarından çıkardık ve sleep 300; rebootsıralı bir otomatik önyükleme yaptık rc.local. Sunucuların, normal DIMM, düşük voltajlı DIMM'ler, PSU watt vb. Değerlerinden bağımsız olarak bu konuda bir sorunu olmadı.

Bütün bunlar USB KVM switch ile zayıf bir etkileşimin sonucuydu. Bu konsol olduğu için, aradığımızda başarısızlığı görmemizi sağladı. Kendinden yerine getiren ...


2
Vay, bu iyi bir tane! Bunu çözmene sevindim.
nedm

7
Kutsal karga. +1 soru ve cevap için. İyi iş; Muhtemelen bunu göz ardı ederdim. "İyi bilinen"? Tabii ki iyi biliniyor - işe yarıyor, değil mi?
mfinni

Çok teşekkür ederim!!! kesinlikle KVM idi. Videoyu çıkarın ve Monitörü doğrudan takın ve sunucu tekrar sorunsuz bir şekilde çalışır. İşletim sistemi yüklendikten sonra KVM'yi tekrar taktım. Sunucunun arkasındaki kablolara yanlışlıkla dokunduğumda sorunun neden olduğunu düşünüyorum. Sistem durdu ve sadece bu tavsiyeye yanıt verdi.

1
Bir KVM'nin buna nasıl sebep olacağı hakkında bir fikrin var mı?
TheLQ,

@ TheLQ Buradaki neden tüketici açısından ucuz bir KVM cihazıydı. Klavyede de bir sorun olabilir.
ewwhite
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.