RHEL6 ile 12G Dell sunucularında “güç sınırı bildirimi” tıkanıklığı


9

Sunucu: Poweredge r620
İşletim Sistemi: RHEL 6.4
Çekirdek: 2.6.32-358.18.1.el6.x86_64

Üretim ortamımda uygulama alarmları yaşıyorum. Kritik CPU aç süreçleri açlıktan ölüyor ve işlem birikimine neden oluyor. Sorun, yeni dağıtılan bir kümedeki 12.Nesil Dell sunucularında (r620'ler) oluşuyor. Anlayabildiğim kadarıyla, bunun gerçekleştiği örnekler, yoğun miktarda "güç sınırı bildirimi" spam'ının eşlik ettiği en yüksek CPU kullanımına kadar eşleşiyor dmesg. Bu olaylardan birinin bir alıntısı:

Nov  7 10:15:15 someserver [.crit] CPU12: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU0: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU6: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU14: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU18: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU2: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU4: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU16: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU0: Package power limit notification (total events = 11)
Nov  7 10:15:15 someserver [.crit] CPU6: Package power limit notification (total events = 13)
Nov  7 10:15:15 someserver [.crit] CPU14: Package power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU18: Package power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU20: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU8: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU2: Package power limit notification (total events = 12)
Nov  7 10:15:15 someserver [.crit] CPU10: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU22: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU4: Package power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU16: Package power limit notification (total events = 13)
Nov  7 10:15:15 someserver [.crit] CPU20: Package power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU8: Package power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU10: Package power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU22: Package power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU15: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU3: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU1: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU5: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU17: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU13: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU15: Package power limit notification (total events = 375)
Nov  7 10:15:15 someserver [.crit] CPU3: Package power limit notification (total events = 374)
Nov  7 10:15:15 someserver [.crit] CPU1: Package power limit notification (total events = 376)
Nov  7 10:15:15 someserver [.crit] CPU5: Package power limit notification (total events = 376)
Nov  7 10:15:15 someserver [.crit] CPU7: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU19: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU17: Package power limit notification (total events = 377)
Nov  7 10:15:15 someserver [.crit] CPU9: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU21: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU23: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU11: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU13: Package power limit notification (total events = 376)
Nov  7 10:15:15 someserver [.crit] CPU7: Package power limit notification (total events = 375)
Nov  7 10:15:15 someserver [.crit] CPU19: Package power limit notification (total events = 375)
Nov  7 10:15:15 someserver [.crit] CPU9: Package power limit notification (total events = 374)
Nov  7 10:15:15 someserver [.crit] CPU21: Package power limit notification (total events = 375)
Nov  7 10:15:15 someserver [.crit] CPU23: Package power limit notification (total events = 374)

Küçük bir Google Fu, bunun genellikle CPU'nun sıcakta çalışması veya voltaj regülasyonu ile ilişkili olduğunu ortaya koyuyor. Yine de bunun olduğunu düşünmüyorum. Kümedeki tüm sunucular için sıcaklık sensörleri düzgün çalışıyor, iDRAC'de Güç Sınırı İlkesi devre dışı ve Sistem Profilim şu sunucularda "Performans" olarak ayarlanmış:

# omreport chassis biossetup | grep -A10 'System Profile'
System Profile Settings
------------------------------------------
System Profile                                    : Performance
CPU Power Management                              : Maximum Performance
Memory Frequency                                  : Maximum Performance
Turbo Boost                                       : Enabled
C1E                                               : Disabled
C States                                          : Disabled
Monitor/Mwait                                     : Enabled
Memory Patrol Scrub                               : Standard
Memory Refresh Rate                               : 1x
Memory Operating Voltage                          : Auto
Collaborative CPU Performance Control             : Disabled

Çevrimiçi bulabildiğim her şey beni burada çevrelerde çalıştırıyor. Ne oluyor böyle?


1
Bilginize, bu konu ana hat çekirdeği 3.11'de giderilmiştir . Bu "normal" kritik olmayan olay için çekirdek kesme işleyicisinin tetiklenmesinden kaynaklanmaktadır. Yukarıda bağlantılı taahhüt bu işleyiciyi devre dışı bırakır.
Totor

Yanıtlar:


8

Performans sorununa neden olan voltaj düzenlemesi değildir, ancak hata ayıklama çekirdeği tetiklenen kesintileri keser.

Redhat'ın bazı yanlış bilgilerine rağmen, bağlantılı sayfaların tümü aynı fenomene atıfta bulunuyor. Voltaj regülasyonu, muhtemelen Turbo Boost özelliğinin etkinleştirilmesi nedeniyle Performans profili ile veya profil olmadan gerçekleşir . Nedeni ne olursa olsun, bu voltaj dalgalanmaları, 2.6.32-358.18.1.el6.x86_64 çekirdeğinde varsayılan olarak etkinleştirilen güç sınırı çekirdek kesintileri ile zayıf bir şekilde etkileşime girer.

Onaylanmış Geçici Çözümler:

  • En son yayınlanan Redhat çekirdeğine (2.6.32-358.23.2.el6) geçmek bu hata ayıklamayı devre dışı bırakır ve performans sorununu ortadan kaldırır.
  • grub.confPLN'leri devre dışı bırakmak için aşağıdaki çekirdek parametrelerini eklemek:clearcpuid=229

Kesintili Geçici Çözümler:

  • "Performans" Sistem Profili Oluşturma. Bu, sunucularımızdaki PLN'leri devre dışı bırakmak için tek başına yeterli değildi. Kilometreniz değişebilir.

Kötü Geçici Çözümler:

  • Kara liste ACPI ile ilgili modüller. Bunu birkaç forum başlığında gördüm. Kötü tavsiye, bu yüzden yapma .

Yeni dağıtılan sistemlerde güncelleştirme çalıştırmadınız mı?
ewwhite

@ewwhite Bu sunucular çekirdek güncellemeleri yayınlanmadan hemen önce dağıtıldı. Yeni BGBG 16 Ekim'de kullanıma sunuldu .
Andrew B

Grrr - Kırmızı Şapka. Güzel bulmak.
ewwhite

Güncellemeden sonra bile bu sorun birkaç hafta sonra benim için yeniden ortaya çıktı (2.6.32-431.17.1.el6.x86_64 çekirdeğinde). Bu sefer ondan kurtulmak için clearcpuid kullanarak PLN'leri devre dışı bırakmak zorunda kaldık. Bu sorun bana çok fazla baş ağrısına neden oldu! Ve sadece bir adet 12G Dell sunucumuz var (ve bu yüzden sadece bir tane kalacak).
Martijn

1
@Martijn Şu anda sorunu yaşıyoruz 2.6.32-431.11.2.el6.x86_64ve yaşamıyoruz. Birçok küme, yüksek yük, vb. Redhat bu güncellemeyi beş gün önce yayınladığında bir gerilemenin sürünmüş olması mümkündür. Durumun ne olduğunu fark edersem cevabı ne bulduğumu size bildireceğim ve güncelleyeceğim.
Andrew B
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.