MCE mesajlarını nasıl yorumlayabilirim?


10

Son zamanlarda /var/log/messagessunucularımızdan birinde (aşağıda) ortaya çıkan bir sürü hata fark ettim . Ancak, mce istemcisi, syslog'daki kodu çözülen girdilerden daha az hata kaynağından emin gibi görünüyor. MCE çıktısını yorumlamak için bir tür anahtar var mı?

Nov 12 04:19:19 areion kernel: [14698753.176035] Machine check events logged
Nov 12 04:19:19 areion mcelog: HARDWARE ERROR. This is *NOT* a software problem!
Nov 12 04:19:19 areion mcelog: Please contact your hardware vendor
Nov 12 04:19:19 areion mcelog: MCE 0
Nov 12 04:19:19 areion mcelog: CPU 0 BANK 8
Nov 12 04:19:19 areion mcelog: MISC 640738dd0009159c ADDR 96236c6c0
Nov 12 04:19:19 areion mcelog: TIME 1352711959 Mon Nov 12 04:19:19 2012
Nov 12 04:19:19 areion mcelog: MCG status:
Nov 12 04:19:19 areion mcelog: MCi status:
Nov 12 04:19:19 areion mcelog: MCi_MISC register valid
Nov 12 04:19:19 areion mcelog: MCi_ADDR register valid
Nov 12 04:19:19 areion mcelog: MCA: MEMORY CONTROLLER RD_CHANNELunspecified_ERR
Nov 12 04:19:19 areion mcelog: Transaction: Memory read error
Nov 12 04:19:19 areion mcelog: STATUS 8c0000400001009f MCGSTATUS 0
Nov 12 04:19:19 areion mcelog: MCGCAP 1c09 APICID 20 SOCKETID 1
Nov 12 04:19:19 areion mcelog: CPUID Vendor Intel Family 6 Model 44

Tüm hatalar aynı bellek bankasına bağlı gibi görünüyor:

areion:~# awk -F'mcelog:' '/mcelog:.*BANK/{ print $2; }' < /var/log/messages |uniq
 CPU 0 BANK 8 

Çalışırken mcelog arka plan programı var ve hata bilgilerini kontrol ettiğimde, hataların nereden geldiğini bilmiyor gibi görünüyor. Yalnızca ilişkili oldukları CPU0(bu kutuda yalnızca bir CPU'muz var):

Memory errors
SOCKET 1 CHANNEL any DIMM any
corrected memory errors:
        77 total
        77 in 24h
uncorrected memory errors:
        0 total
        0 in 24h
Per page corrected memory statistics:
359ffc000: total 2 2 in 24h online

3b93cc000: total 2 2 in 24h online

3ce45c000: total 2 2 in 24h online

96236c000: total 20 20 in 24h online triggered

96545c000: total 9 9 in 24h online

96a82c000: total 9 9 in 24h online

96a8ec000: total 1 1 in 24h online

96fb6c000: total 15 15 in 24h online triggered

9c2edc000: total 15 15 in 24h online triggered

9c5eac000: total 1 1 in 24h online

9c6a1c000: total 1 1 in 24h online

Bu bilgiyi nasıl yorumlayacağım açık değil. Bir yandan, mce istemcisi kanalı veya DIMM'yi göstermez, ancak kodu çözülen mesaj DIMM 8'de meydana gelen hataları dmesggösterir. Sadece 42 mesajın günlüğe kaydedildiğini gösterir:

[14698753.176035] Machine check events logged
[14698753.629174] Machine check events logged
[14698815.338595] __ratelimit: 38 callbacks suppressed
[14698815.338628] Machine check events logged
[14698816.020797] Machine check events logged

Karışık mesajlar alıyorum, bu da çeşitli kaynaklardan bildirilen bilgilere dayanarak ne varsayımlarda bulunacağımı merak ediyor.

Çeşitli bilgiler:

areion:~# grep 'model name' /proc/cpuinfo |uniq
model name      : Intel(R) Xeon(R) CPU           X5670  @ 2.93GHz

areion:~# apt-cache policy mcelog |grep Installed
  Installed: 1.0~pre3-3

areion:~# lsb_release -a
No LSB modules are available.
Distributor ID: Debian
Description:    Debian GNU/Linux 6.0.6 (squeeze)
Release:        6.0.6
Codename:       squeeze

Yanıtlar:


2

Söz konusu DIMM'i değiştirmeyi (CPU 0, SOCKET 8) ve MCE mesajlarının oluşturulmaya devam edip etmediğini görmek isteyebilirsiniz.

Mcelog paketi, zaman içinde meydana gelen çeşitli MCE olayları için bazı varsayılan eşiklerle yapılandırılmış olarak gelir. /etc/mcelog/mcelog.confAyrıntılar için göz atın . Bellek sayfası hataları için eşik 24 saat boyunca 10 olaydır. (Bu sayının nereden geldiğinden emin değilim ama muhtemelen makul bir referans noktası). Yayınınız bir sürü sayfaya karşı 24 saat içinde 77 düzeltilebilir olaydan bahsediyor, bu nedenle DIMM'nin daha ciddi bir şeye dönüşebilecek veya olmayabilecek bir sorun geliştirmesi muhtemeldir.

Farklı kaynaklardan tutarsız bilgi alma konusunda çok üzülmem. Genel olarak, bellenim düzeyindeki herhangi bir şeyin platforma özgü (yani belirli donanım modeline özgü) olduğunu fark ettim. Ürün yazılımı ile ilgili sorunlar için temel kuralım, satıcı araçlarının genellikle en doğru, ancak en az kullanılabilir olmasıdır. Daha genel açık kaynak araçlarla çalışmak daha kolaydır, ancak tam olarak neler olduğunu göstermek için yeterli bilgi sağlamayabilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.