“HATA: yumuşak kilitleme - CPU # 0, 17163091968'ler için sıkışmış” nasıl düzeltilir?


14

GÜNCELLEME: İletinin başlığını güncelledim, çünkü yakın zamanda bu sorunların daha fazla zamanını bu tam zaman miktarıyla gördüm 17163091968s. Bu, semptomları araştıran kişilerin bu sayfayı bulmasına yardımcı olmalıdır. Aşağıdaki (kendi kendine) kabul ettiğim cevaba bakınız.


Bir VMware vSphere veri merkezinde bir sürü 64-bit Ubuntu 10.04 LTS VM'sim var. VMware araçları yüklüdür (vSphere Client "Tamam" der).

VM bazı syslog aşağıdaki hata ile birkaç kez asmak gördüm. Durumu vSphere'den kontrol ederken, konsol siyahtı ve "Konuk yeniden başlat" komutu hiçbir şey yapmadı, bu yüzden VM'yi kapatmam gerekiyordu.

Dec  1 11:44:15 s0 kernel: [18446744060.007150] BUG: soft lockup - CPU#0 stuck for 17163091988s! [jed:26674]
Dec  1 11:44:15 s0 kernel: [18446744060.026854] Modules linked in: btrfs zlib_deflate crc32c libcrc32c ufs qnx4 hfsplus hfs minix ntfs vfat msdos fat jfs xfs exportfs reiserfs xt_tcpudp iptable_filter ip_tables x_tables acpiphp fbcon tileblit font bitblit softcursor ppdev vga16fb psmouse parport_pc shpchp vgastate i2c_piix4 lp parport serio_raw intel_agp floppy mptspi mptscsih vmw_pvscsi e1000 mptbase
Dec  1 11:44:15 s0 kernel: [18446744060.026899] CPU 0:
Dec  1 11:44:15 s0 kernel: [18446744060.026900] Modules linked in: btrfs zlib_deflate crc32c libcrc32c ufs qnx4 hfsplus hfs minix ntfs vfat msdos fat jfs xfs exportfs reiserfs xt_tcpudp iptable_filter ip_tables x_tables acpiphp fbcon tileblit font bitblit softcursor ppdev vga16fb psmouse parport_pc shpchp vgastate i2c_piix4 lp parport serio_raw intel_agp floppy mptspi mptscsih vmw_pvscsi e1000 mptbase
Dec  1 11:44:15 s0 kernel: [18446744060.026920] Pid: 26674, comm: jed Not tainted 2.6.32-30-server #59-Ubuntu VMware Virtual Platform
Dec  1 11:44:15 s0 kernel: [18446744060.026922] RIP: 0033:[<00007f92e03d2ce6>]  [<00007f92e03d2ce6>] 0x7f92e03d2ce6
Dec  1 11:44:15 s0 kernel: [18446744060.026930] RSP: 002b:00007fff6069b770  EFLAGS: 00000202
Dec  1 11:44:15 s0 kernel: [18446744060.026932] RAX: 00007f92e27e7e10 RBX: 00007f92e06d5e40 RCX: 0000000000020000
Dec  1 11:44:15 s0 kernel: [18446744060.026933] RDX: 00007f92e27e7e10 RSI: 0000000000020209 RDI: 0000000000000002
Dec  1 11:44:15 s0 kernel: [18446744060.026934] RBP: ffffffff81013cae R08: 0000000000000001 R09: 0000000000000000
Dec  1 11:44:15 s0 kernel: [18446744060.026935] R10: 00007f92e06d6398 R11: 0000000000000870 R12: 00000000000000c0
Dec  1 11:44:15 s0 kernel: [18446744060.026937] R13: 00007f92e299dca0 R14: 0000000000000020 R15: 00007f92e06d5e40
Dec  1 11:44:15 s0 kernel: [18446744060.026939] FS:  00007f92e105b700(0000) GS:ffff880009c00000(0000) knlGS:0000000000000000
Dec  1 11:44:15 s0 kernel: [18446744060.026940] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
Dec  1 11:44:15 s0 kernel: [18446744060.026941] CR2: 00007ff12ea15000 CR3: 0000000267067000 CR4: 00000000000006f0
Dec  1 11:44:15 s0 kernel: [18446744060.026968] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
Dec  1 11:44:15 s0 kernel: [18446744060.026989] DR3: 0000000000000000 DR6: 00000000ffff0ff0 DR7: 0000000000000400
Dec  1 11:44:15 s0 kernel: [18446744060.026991] Call Trace:

(İz yok - bu son satır.)

Artık diğer hatalar var gibi görünmüyor, ancak yukarıda belirtilen işlemin jeddiğer dökümlerde farklı olduğundan eminim .

  • Bu soruna ne sebep olabilir?

  • Bunun olmasını nasıl önleyebilirim?

Bazı ekstra bilgiler:

  • Değer 17163091988biraz (pun amaçlı) şüpheli - 1111111111000000000000000000010100ikili. Belki de hata 20 saniye demeye çalışıyordu 10100?

  • Sorunun en son 10.04 çekirdeği (2.6.32-35) ile devam edip etmediğinden emin değilim.

  • Ben de task ... blocked for more than 120 secondssorunlar gördüm - belki ilgili olabilir?

  • vSphere istemcisi, VM için hiçbir uyarı veya geçiş görevi göstermez.


belki yanlış bir zaman işleyişi? İle oynayabilirsiniz clocksource. Ayrıca CPU'ların C durumları iyi bir tahmindir.
SaveTheRbtz

Yanıtlar:


12

Tüm yorumculara teşekkürler. Sanırım cevabı buldum. En azından Ubuntu'nun çekirdek sürümü 2.6.32-30 sunucusunda bir zaman tutma hatası var gibi görünüyor. Hata bazen (?) Yaklaşık 200..210 günlük bir çalışma süresine ulaştığında makineleri öldürür. Aslında durma, sınıra ulaşıldıktan hemen sonra gerçekleşmez, ancak bazı işlemler tarafından tetiklenir (benim durumumda:) apt-get install ....

Not: 200 gün 1/250 saniyenin yaklaşık 2 ^ 32 katıdır ve 250 CONFIG_HZ için varsayılan değerdir.

Şimdilik, sorunun daha yeni çekirdeklerde çözülüp çözülmediğine dair veri bulamadım. Eski bir çekirdeği (2.6.32-26 sunucusu) etkilemediğini biliyorum. Tüm bu bilgilerden, henüz sabit değilse, aşağıdakilerden kaçınılabileceğini varsayıyorum:

  • makineleri her 190 günde bir önyükleyin (yine de çekirdek yükseltmeleri için iyi bir fikir)
  • CONFIG_HZ değerini 100 olarak ayarlayın ve böylece her 497 günde bir yapın. Ancak, bunun özellikle sanal ortamlarda beklenmedik yan etkileri olabilir. Ve sorunu çözmez .

İşte Ubuntu için bir hata raporu .


İyi bulmak - debian için
damla damla

Merak etmiyor: NTP mi yoksa vmware üzerinden zaman senkronizasyonu mu kullanıyorsunuz? Sürekli zaman kayması veya bunun gibi bir şey gibi geliyor .. syslog'da zaman kayması girişleri günlüğe kaydedilmelidir.
pauska

Ben debian, 2.6.32-5-amd64 çekirdeği "garip bir şekilde" performans gösteren iki yumuşak kilit gösteren gösteren bir şey gördüm
James

5

Bu aslında aşağıdaki çekirdek taahhüdü tarafından düzeltilen bir çekirdek hatasıdır:

http://git.kernel.org/?p=linux/kernel/git/tip/tip.git;a=commit;h=4cecf6d401a01d054afc1e5f605bcbfe553cb9b9

Aşağıdaki başlık için LKML'de arama yapabilirsiniz (2'den fazla bağlantı gönderemezsiniz): [kararlı] 2.6.32.21 - çalışma süresi ile ilgili çökmeler?

Ve bu, çekirdek düzeltmesini getiren LP # hatasıdır:

https://bugs.launchpad.net/ubuntu/+source/linux/+bug/902317

Düzenli güncellemelerdeki en son çekirdeğe yükseltmek bu sorunu iyi çözmelidir.

HTH


2

Sanallaştırma ana makinesinin, kullanılmayan çekirdekleri düşük güç / uyku moduna göndererek bu çekirdeği kullanan VM'lerde ilginç kesintilere neden olabilecek bazı güç tasarrufu özelliklerine ("Yeşil IT") sahip olabilir mi? Bunun esas olarak HyperV ortamlarında bir sorun olduğunu duydum, ancak bakmak için bir şey olabilir.


1

Başka birinin bunu bulması durumunda, çekirdek yükseltmesi benim için benzer bir sorunu düzeltti. Bu CPU Softlock hatalarını önyüklemeye atan bir SAS3 denetleyicisi aracılığıyla sisteme bağlı bir JBOD vardı.

Ubuntu 14.04.2 çekirdek sürümü 3.16.0-30 vardı ve bir "apt -y yükseltme" yapmak beni 3.16.0-49 çekirdeğinde sona erdi ve bu sorunu çözdü.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.