Hata: yumuşak kilitleme - CPU # x saniye sıkışmış


33

Bir dırdır ile ilgili birkaç hata raporu ve sorusu (yığın değişimi ve başka yerlerde) gördüm "BUG: soft lockup - CPU#<n> stuck for <dt>s!". Şimdiye kadar ne yapılacağı ya da deneneceği konusunda hiçbir ipucu bulamadım (bunun yerine bulduğum ve takip ettiğim ipuçları bunun olmasını engellemedi). Bu konuda daha fazla endişeliyim çünkü:

  1. Bu olayların sıklığı son zamanlarda yavaş yavaş artmaktadır (ayda 700'den fazla),
  2. yum update ve yeniden başlatma işlemi bir süre için yavaşladı, ancak bazı kilitlenmelerin tekrar başladığını gördüm.
  3. birkaç işlem (tüm ana bilgisayar değilse, bunu söylemek zor), kesinlikle tüm etkileşimli mermilerim de dahil olmak üzere bir süre donmuş durumda,
  4. Bağlantılı olup olmadığından emin değilim, ancak ntpd ile ilgili saati güncelleyemeyen birçok kayıt / mesaj görüyorum.

Aşağıdaki bir kısmıdır $(grep 'soft lockup' /var/log/messages*):

Mar 22 10:02:35 localhost kernel: BUG: soft lockup - CPU#15 stuck for 10s! [kjournald:1048]
Mar 22 10:02:36 localhost kernel: BUG: soft lockup - CPU#0 stuck for 10s! [postgres:5372]
Mar 22 10:02:36 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [postgres:5368]
Mar 22 10:02:37 localhost kernel: BUG: soft lockup - CPU#0 stuck for 10s! [postgres:5372]
Mar 22 10:02:37 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [postgres:5368]
Mar 22 10:02:38 localhost kernel: BUG: soft lockup - CPU#0 stuck for 10s! [postgres:5372]
Mar 22 10:02:38 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [postgres:5368]
Mar 22 10:02:39 localhost kernel: BUG: soft lockup - CPU#0 stuck for 10s! [postgres:5372]
Mar 22 10:02:39 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [postgres:5368]
Mar 22 10:02:40 localhost kernel: BUG: soft lockup - CPU#15 stuck for 25s! [swapper:0]
Mar 22 15:42:16 localhost kernel: BUG: soft lockup - CPU#8 stuck for 25s! [kjournald:1048]
Mar 22 18:22:13 localhost kernel: BUG: soft lockup - CPU#15 stuck for 10s! [postgres:21356]
Mar 22 18:22:20 localhost kernel: BUG: soft lockup - CPU#7 stuck for 10s! [java:8653]
Mar 22 18:22:20 localhost kernel: BUG: soft lockup - CPU#8 stuck for 72s! [kjournald:1048]
Mar 22 21:21:37 localhost kernel: BUG: soft lockup - CPU#12 stuck for 29s! [kjournald:1048]
Mar 22 21:22:07 localhost kernel: BUG: soft lockup - CPU#12 stuck for 27s! [kjournald:1048]
Mar 23 02:01:47 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [kblockd/8:276]
Mar 23 02:02:22 localhost kernel: BUG: soft lockup - CPU#8 stuck for 34s! [kblockd/8:276]

Bu rastgele işlemlere olur ve sanal konağın 16 çekirdeği üzerinde oldukça iyi dağılmış görünmektedir.

Ana bilgisayar, "EC2 CentOS 5.5 GPU HVM AMI (Sürücü 260.19.29) (ami-42a2532b)" adlı bir AMI olan bir AWS EC2 "cc1.4xlarge" örneğidir. Xen ile sanallaştırılmış gibi görünüyor.

cat /etc/redhat-releaseverim CentOS release 5.9 (Final). 'free'21G RAM bildirir.

Başkanı dmesg:

Linux version 2.6.18-348.3.1.el5 (mockbuild@builder10.centos.org) (gcc version 4.1.2 20080704 (Red Hat 4.1.2-54)) #1 SMP Mon Mar 11 19:39:25 EDT 2013
Command line: ro root=/dev/VolGroup00/LogVol00 rhgb quiet console=tty0 console=ttyS0,115200n8
BIOS-provided physical RAM map:
 BIOS-e820: 0000000000010000 - 000000000009fc00 (usable)
 BIOS-e820: 000000000009fc00 - 00000000000a0000 (reserved)
 BIOS-e820: 00000000000e0000 - 0000000000100000 (reserved)
 BIOS-e820: 0000000000100000 - 00000000c0000000 (usable)
 BIOS-e820: 00000000fc000000 - 0000000100000000 (reserved)
 BIOS-e820: 0000000100000000 - 00000005dd800000 (usable)
DMI 2.4 present.
DMI: Xen HVM domU, BIOS 3.4.3-2.6.18 08/29/2012
ACPI: RSDP (v002    Xen                                ) @ 0x00000000000ea020
ACPI: XSDT (v001    Xen      HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc0062b0
ACPI: FADT (v004    Xen      HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc005ee0
ACPI: MADT (v002    Xen      HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc005fe0
ACPI: SRAT (v001    Xen      HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc0060c0
ACPI: SLIT (v001    Xen      HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc006240
ACPI: HPET (v001    Xen      HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc006270
ACPI: DSDT (v002    Xen      HVM 0x00000000 INTL 0x20090220) @ 0x(null)

Aşağıdaki gösterileri son zaman içinde bu "yumuşak kilitlenmelerine" bir kümülatif sayım (son ne zaman redline olduğu yum updatetakiben reboot): yumuşak lokavtların kümül sayısı.

Aşağıdaki gösterileri (ana bilgisayar sıkışmış ne kadar süre) süresi histogramı: süre histogramı.


1
Muhtemel sebeplerden ton. Bir kez KVM örneğinde vardı. Bunun nedeni, sanallaştırmanın beklemeyeceği yüksek ağ yükleri üzerinde bir şey yapacak olan ana bilgisayar ağ sürücüsü (realtek) ve sanal makinelerde VM'lerin takılı kaldığı bir işte. Yani temelde ağ sürücüsünde, diğer hataları daha da tetikleyen bir hata. Çözüm, belirli bir davranışı tetiklemeyen farklı bir çekirdek sürümüne (ana bilgisayarda) geçmek oldu.
frostschutz

1
Bu hata iletisini aldık, çünkü bazı VM'ler yeni sunucudaki fiziksel CPU'lardan daha fazla vcpus yapılandırdı, Xen sunucumuza taşındık.
Jörg Ludwig

Yanıtlar:


11

Bu sorunu Xen 4.2'de 3.6 ve 3.8 Kernel (AlpineLinux) ile de yaşıyorum.

Etrafta dolaşıp çekirdeğime clocksource = jiffies ekleyerek bunu düzelttim. Jiffies yerine "pit" de deneyebilirsiniz.

BIOS'ta C durumlarını devre dışı bırakma raporları da vardır .


4
Bu çekirdek parametreleri ne işe yarar?
Burhan Ali,

2
Clocksource benim için oldukça açık görünüyor ve c durumları CPU'nun güç durumları.
Franz Bettag,

+1. C-devletleri devre dışı bırakmak benim için çalıştı.
Andrew Ensley

2

Thinkpad T520 ile aynı problemi yaşadım. Fakat çekirdeği kesmek yerine daha basit bir şey yaptım. İlk önce Centos7 kullanıyorum Baz sistem kurdum hepsi iyi çalıştı. Sonradan yukarıda belirtilen sorunları almaya başladığım GNOME GUI'yi ekledim. Windows yüklemeleri için pek çok üreticinin kurulduğunu fark ettim. Grafik kartı genellikle Win7 (NVIDIA OPTIMUS) için ayarlanmıştır Tümleşik grafik moduna sıfırlıyorum ve artık askıda kalıyorum / hata yok. Nasıl yapılır? BIOS'a girmek için Thinkpad'inizi F1 veya mavi renkli Thinkvantage düğmesine basarak yeniden başlatın. Kaydedip çıkmak için grafiklere gidin ve ardından bütünleşik grafikleri seçin, ardından F10. Bu kart için 3 ayar var: Tümleşik, Ayrık ve NVIDIA OPTIMUS (yalnızca Win7?) Umarım bu bir zaman kazandırır mı?


İç çekiş, çoğunlukla her şey gibi, eşyaları ayrı ayrı kurmak da bir hayır-hayır. Office ve diğer saçmalıklarla şişirilmiş masaüstü versiyonuna geri dön :(
killjoy
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.