MCE mesajında ​​hatalı bellek modülü nasıl bulunur?


11

Bir sunucuda hangi bellek modülünün kötü olduğunu bulmak için MCE mesajını anlamaya çalışıyorum. Bu ileti, /var/log/kern.logbugün iki kez donan bir sunucuda görünür .

Apr 13 22:39:22 mbox kernel: [36247975.116860] sbridge: HANDLING MCE MEMORY ERROR
Apr 13 22:39:22 mbox kernel: [36247975.116867] CPU 0: Machine Check Exception: 0 Bank 5: 8c00004000010090
Apr 13 22:39:22 mbox kernel: [36247975.116869] TSC 0 ADDR 4a0d75900 MISC 21405cdc86 PROCESSOR 0:206d7 TIME 1428957562 SOCKET 0 APIC 0
Apr 13 22:39:22 mbox kernel: [36247975.951013] EDAC MC0: 1 CE memory read error 

Kötü bir bellek modülünden şüpheleniyorum. Sunucu, 8x8Go bellek modüllerine sahip 2x Xeon E5-2650'dir (her işlemci için 8 bellek yuvası)

İşte bellek modülü nüfusu lshw:

 *-memory:0
      description: System Memory
      physical id: 2d
      slot: System board or motherboard
    *-bank:0
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-197.A
         vendor: Kingston
         physical id: 0
         serial: B83AE5C2
         slot: P1_DIMMA1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:1
         description: DIMM Synchronous [empty]
         product: Dimm1_PartNum
         vendor: Dimm1_Manufacturer
         physical id: 1
         serial: Dimm1_SerNum
         slot: P1_DIMMA2
         width: 64 bits
    *-bank:2
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 2
         serial: EC309238
         slot: P1_DIMMB1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:3
         description: DIMM Synchronous [empty]
         product: Dimm4_PartNum
         vendor: Dimm4_Manufacturer
         physical id: 3
         serial: Dimm4_SerNum
         slot: P1_DIMMB2
         width: 64 bits
    *-bank:4
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 4
         serial: E9305438
         slot: P1_DIMMC1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:5
         description: DIMM Synchronous [empty]
         product: Dimm7_PartNum
         vendor: Dimm7_Manufacturer
         physical id: 5
         serial: Dimm7_SerNum
         slot: P1_DIMMC2
         width: 64 bits
    *-bank:6
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 6
         serial: E7305738
         slot: P1_DIMMD1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:7
         description: DIMM Synchronous [empty]
         product: Dimm10_PartNum
         vendor: Dimm10_Manufacturer
         physical id: 7
         serial: Dimm10_SerNum
         slot: P1_DIMMD2
         width: 64 bits
 *-memory:1
      description: System Memory
      physical id: 3f
      slot: System board or motherboard
    *-bank:0
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-197.A
         vendor: Kingston
         physical id: 0
         serial: B63A08C3
         slot: P2_DIMME1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:1
         description: DIMM Synchronous [empty]
         product: Dimm1_PartNum
         vendor: Dimm1_Manufacturer
         physical id: 1
         serial: Dimm1_SerNum
         slot: P2_DIMME2
         width: 64 bits
    *-bank:2
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 2
         serial: EA309638
         slot: P2_DIMMF1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:3
         description: DIMM Synchronous [empty]
         product: Dimm4_PartNum
         vendor: Dimm4_Manufacturer
         physical id: 3
         serial: Dimm4_SerNum
         slot: P2_DIMMF2
         width: 64 bits
    *-bank:4
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 4
         serial: E7305938
         slot: P2_DIMMG1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:5
         description: DIMM Synchronous [empty]
         product: Dimm7_PartNum
         vendor: Dimm7_Manufacturer
         physical id: 5
         serial: Dimm7_SerNum
         slot: P2_DIMMG2
         width: 64 bits
    *-bank:6
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 6
         serial: E7305B38
         slot: P2_DIMMH1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:7
         description: DIMM Synchronous [empty]
         product: Dimm10_PartNum
         vendor: Dimm10_Manufacturer
         physical id: 7
         serial: Dimm10_SerNum
         slot: P2_DIMMH2
         width: 64 bits
 *-memory:2 UNCLAIMED
      physical id: 7
 *-memory:3 UNCLAIMED
      physical id: 9

Gördüğünüz gibi # 5 bankasında bellek modülü yok. Yani sorum şu: bu mesajın hafıza hatası ile ilgili olduğunu kabul ediyor musunuz? Ve eğer öyleyse, değiştirilecek modülü nasıl bulabilirim?

Yanıtlar:


10

Bu hatalar, cihazın EDAC - Hata Algılama ve Düzeltme edac_mc sınıfından geliyor.

Aldığınız olaylar CE olaylarıdır (Düzeltilebilir Hatalar). Bunlar bir DIMM'nin arızalanmaya başladığının göstergeleridir.

EDAC, hangi bellek satırına veya kanala başvurduğu hakkında herhangi bir özel bilgi bildirmediğinden, başarısız olana kadar hangisinin değiştirileceğini söylemek zor.

ancak bir göz atın: / sys / Devices / system / edac / mc / mc * ve bu, hatalı satır olabilecek hangi satır / dimm hakkında biraz daha bilgi verebilir.

Örneğin

ls -s /sys/devices/system/edac/mc/mc0 total 0 0 ce_count 0 csrow1 0 csrow4 0 csrow7 0 reset_counters 0 size_mb 0 ce_noinfo_count 0 csrow2 0 csrow5 0 device 0 sdram_scrub_rate 0 ue_count 0 csrow0 0 csrow3 0 csrow6 0 mc_name 0 seconds_since_reset 0 ue_noinfo_count

ce_count alanına bakın.

bir yan notta:

Sistem hala çalışmaya devam edebilir, ancak daha az güvenlikle. Önleyici bakım ve CE içeren bellek DIMM'lerinin proaktif parça değişimi, korkunç UE (düzeltilemez hata) olaylarının ve sistemin 'paniklerinin' olasılığını azaltabilir.

edac hakkında daha fazla bilgi için:

https://www.kernel.org/doc/Documentation/edac.txt


veya yeniden başlatın ve GRUB önyükleme ekranında memtest'i seçin ve bu size biraz daha bilgi verebilir.
kamger

Bu sabah orada MCE mesajı yok (sunucuya fiziksel erişimi yok), edac'ı kontrol etmesini bekliyor, iyi fikir!
Matg

1

Mcelog'u kurmaya ve bir daemon olarak çalıştırmaya yardımcı olabilir, daha iyi raporlar sağlamaya yardımcı olabilir. Hâlâ şifreleniyorlar ancak külfet DIMM'ini bulmak için daha fazla bilgi var.

mcelog, aşırı bellek hataları olan sayfaları devre dışı bırakarak ve böylece makineyi kurtarıncaya kadar daha uzun süre çalışmaya devam etme şansı vererek gerçek zamanlı sorunları da çözebilir.


Teşekkürler, ben ne yaptım ama ilk yazı beri daha fazla hata yok. Tüm DIMM'i değiştirmeye karar verdik.
Matg

Bazen hatalar geçicidir ve bazen nadiren dokunulan çok spesifik yerlere bağlanırlar. Hatalar tekrarlanmasaydı, ben şahsen dimmlerin yerini alamazdım ve sadece izlemeye devam ederdim, ama değiştirmek de geçerlidir.
Baruch Bile

1

Bazı satıcılar, belirli bir süre içinde düzeltilebilir birkaç hatanın zararsız olduğunu söylüyor.

Örneğin, Oracle, aşağıdaki olaylardan biri gerçekleştiğinde bir DIMM'in değiştirileceğini söylüyor:

  • 24 saatten fazla Düzeltilebilir Hata (CE) tek bir DIMM'den 24 saat içinde kaynaklanır ve başka hiçbir DIMM daha fazla CE göstermez.

  • DIMM, Düzeltilemez Bellek Hataları (UCE'ler) nedeniyle BIOS altında bellek testinde başarısız oluyor.

  • UCE'ler meydana gelir ve araştırma hataların bellekten kaynaklandığını gösterir.

24 saat içinde 24 hataya dikkat edin.

https://docs.oracle.com/cd/E19150-01/820-4213-11/dimms.html

Ayrıca,

Birden fazla DIMM birden fazla CE yaşadıysa, CE'lerin diğer olası nedenleri, herhangi bir DIMM'yi değiştirmeden önce kalifiye bir Sun Destek uzmanı tarafından göz ardı edilmelidir.

Son noktada, HP, bellek hatalarını yanlış algılayan sadece sunucu ürün yazılımı olabileceğine benzer bir şey söylüyor. Çoğu durumda bellenim yükseltmesinin yanlış pozitif uyarıları düzelttiğini söylüyorlar. Bu, özellikle farklı DIMM'lerden MCE'ler almaya başladıysanız geçerli olabilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.