Sunucu: Poweredge r620
İşletim Sistemi: RHEL 6.4
Çekirdek: 2.6.32-358.18.1.el6.x86_64
Üretim ortamımda uygulama alarmları yaşıyorum. Kritik CPU aç süreçleri açlıktan ölüyor ve işlem birikimine neden oluyor. Sorun, yeni dağıtılan bir kümedeki 12.Nesil Dell sunucularında (r620'ler) oluşuyor. Anlayabildiğim kadarıyla, bunun gerçekleştiği örnekler, yoğun miktarda "güç sınırı bildirimi" spam'ının eşlik ettiği en yüksek CPU kullanımına kadar eşleşiyor dmesg
. Bu olaylardan birinin bir alıntısı:
Nov 7 10:15:15 someserver [.crit] CPU12: Core power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU0: Core power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU6: Core power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU14: Core power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU18: Core power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU2: Core power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU4: Core power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU16: Core power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU0: Package power limit notification (total events = 11)
Nov 7 10:15:15 someserver [.crit] CPU6: Package power limit notification (total events = 13)
Nov 7 10:15:15 someserver [.crit] CPU14: Package power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU18: Package power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU20: Core power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU8: Core power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU2: Package power limit notification (total events = 12)
Nov 7 10:15:15 someserver [.crit] CPU10: Core power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU22: Core power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU4: Package power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU16: Package power limit notification (total events = 13)
Nov 7 10:15:15 someserver [.crit] CPU20: Package power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU8: Package power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU10: Package power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU22: Package power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU15: Core power limit notification (total events = 369)
Nov 7 10:15:15 someserver [.crit] CPU3: Core power limit notification (total events = 369)
Nov 7 10:15:15 someserver [.crit] CPU1: Core power limit notification (total events = 369)
Nov 7 10:15:15 someserver [.crit] CPU5: Core power limit notification (total events = 369)
Nov 7 10:15:15 someserver [.crit] CPU17: Core power limit notification (total events = 369)
Nov 7 10:15:15 someserver [.crit] CPU13: Core power limit notification (total events = 369)
Nov 7 10:15:15 someserver [.crit] CPU15: Package power limit notification (total events = 375)
Nov 7 10:15:15 someserver [.crit] CPU3: Package power limit notification (total events = 374)
Nov 7 10:15:15 someserver [.crit] CPU1: Package power limit notification (total events = 376)
Nov 7 10:15:15 someserver [.crit] CPU5: Package power limit notification (total events = 376)
Nov 7 10:15:15 someserver [.crit] CPU7: Core power limit notification (total events = 369)
Nov 7 10:15:15 someserver [.crit] CPU19: Core power limit notification (total events = 369)
Nov 7 10:15:15 someserver [.crit] CPU17: Package power limit notification (total events = 377)
Nov 7 10:15:15 someserver [.crit] CPU9: Core power limit notification (total events = 369)
Nov 7 10:15:15 someserver [.crit] CPU21: Core power limit notification (total events = 369)
Nov 7 10:15:15 someserver [.crit] CPU23: Core power limit notification (total events = 369)
Nov 7 10:15:15 someserver [.crit] CPU11: Core power limit notification (total events = 369)
Nov 7 10:15:15 someserver [.crit] CPU13: Package power limit notification (total events = 376)
Nov 7 10:15:15 someserver [.crit] CPU7: Package power limit notification (total events = 375)
Nov 7 10:15:15 someserver [.crit] CPU19: Package power limit notification (total events = 375)
Nov 7 10:15:15 someserver [.crit] CPU9: Package power limit notification (total events = 374)
Nov 7 10:15:15 someserver [.crit] CPU21: Package power limit notification (total events = 375)
Nov 7 10:15:15 someserver [.crit] CPU23: Package power limit notification (total events = 374)
Küçük bir Google Fu, bunun genellikle CPU'nun sıcakta çalışması veya voltaj regülasyonu ile ilişkili olduğunu ortaya koyuyor. Yine de bunun olduğunu düşünmüyorum. Kümedeki tüm sunucular için sıcaklık sensörleri düzgün çalışıyor, iDRAC'de Güç Sınırı İlkesi devre dışı ve Sistem Profilim şu sunucularda "Performans" olarak ayarlanmış:
# omreport chassis biossetup | grep -A10 'System Profile'
System Profile Settings
------------------------------------------
System Profile : Performance
CPU Power Management : Maximum Performance
Memory Frequency : Maximum Performance
Turbo Boost : Enabled
C1E : Disabled
C States : Disabled
Monitor/Mwait : Enabled
Memory Patrol Scrub : Standard
Memory Refresh Rate : 1x
Memory Operating Voltage : Auto
Collaborative CPU Performance Control : Disabled
- Bir Dell posta listesi gönderisi , semptomları neredeyse mükemmel bir şekilde açıklar. Dell, yazarın Performans profilini kullanmayı denediğini önerdi, ancak bu yardımcı olmadı. Sonunda, Dell'in kılavuzunda düşük gecikmeli ortamlar için bir sunucu yapılandırmak için bazı ayarları uyguladı ve bu ayarlardan biri (veya bunların bir kombinasyonu) sorunu çözmüş görünüyor.
- Kernel.org hatası # 36182 , güç sınırı kesme hata ayıklamasının varsayılan olarak etkinleştirildiğini ve bu da CPU voltaj regülasyonunun başladığı senaryolarda performans düşüşüne neden olduğunu not eder.
- Bir RHN KB makalesi (RHN girişi gereklidir), Performans profilini çalıştırmayan PE r620 ve r720 sunucularını etkileyen bir sorundan bahseder ve iki hafta önce yayımlanan bir çekirdeğin güncellenmesini önerir. ... Performans profilini çalıştırmamız dışında ...
Çevrimiçi bulabildiğim her şey beni burada çevrelerde çalıştırıyor. Ne oluyor böyle?