Hangi belleğin CE hatası olduğunu nasıl bulabilirim?


12

İçinde /var/log/kern.log:

kernel: [13291329.657499] EDAC MC0: 48 CE error on CPU#0Channel#2_DIMM#0 (channel:2 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)

Bu edacgünlük, bellekten birinde cehata var.

Edac dokümanı okudum

Dual channels allows for 128 bit data transfers to the CPU from memory.
Some newer chipsets allow for more than 2 channels, like Fully Buffered DIMMs
(FB-DIMMs). The following example will assume 2 channels:


            Channel 0   Channel 1
    ===================================
    csrow0  | DIMM_A0   | DIMM_B0 |
    csrow1  | DIMM_A0   | DIMM_B0 |
    ===================================

    ===================================
    csrow2  | DIMM_A1   | DIMM_B1 |
    csrow3  | DIMM_A1   | DIMM_B1 |
    ===================================

ve hata kanalını bulun:

$ grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count
/sys/devices/system/edac/mc/mc0/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch2_ce_count:144648966
/sys/devices/system/edac/mc/mc0/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch2_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch1_ce_count:0

ve mc0/csrow0/ch2belge olarak DIMM olması gerekir DIMM_C0ve şu şekilde bulunabilir dmidecode:

Ama bu DIMM'i bulamıyorum, bu yüzden hangi bellekte sorun olduğunu bilmiyorum:

$ dmidecode -t memory | grep 'Locator: PROC'
        Locator: PROC 1 DIMM 2A
        Locator: PROC 1 DIMM 1D
        Locator: PROC 1 DIMM 4B
        Locator: PROC 1 DIMM 3E
        Locator: PROC 1 DIMM 6C
        Locator: PROC 1 DIMM 5F
        Locator: PROC 2 DIMM 2A
        Locator: PROC 2 DIMM 1D
        Locator: PROC 2 DIMM 4B
        Locator: PROC 2 DIMM 3E
        Locator: PROC 2 DIMM 6C
        Locator: PROC 2 DIMM 5F

12 yuva vardır ve 9 yuva hafızalıdır.

Peki hangi hafızada sorun olduğunu nasıl bilebilirim?


Ek:

System Information
        Manufacturer: HP
        Product Name: ProLiant DL180 G6

Bu ne tür bir sunucu? Sunucu Üreticisi ve Modeli.
ewwhite

@whwhite, merhaba, soruyu sistem bilgisi ile güncelledim.
Tanky Woo

Ne tür bir işletim sistemi kullanıyorsun?
ewwhite

@Wwhite OS Ubuntu 12.04, Çekirdek3.10.20
Tanky Woo

Oh, üzgünüm ... Ubuntu bu donanımda gerçekten desteklenmiyor, bu yüzden RHEL / CentOS / Debian / SuSE kullanmadan düzgün izleme yeteneğini kaybediyorsunuz ...
ewwhite

Yanıtlar:


8

Sorun DIMM'iniz büyük olasılıkla - Locator: PROC 1 DIMM 5F

CPU # 0 Kanal # 2_DIMM # ​​0 şu anlama gelir:

PROC 1, 
1D,2A = Channel 0  
3E,4B = Channel 1
5F,6C = Channel 2

5F = DIMM 0
6C = DIMM 1

Düzenle:

Soru sorurken, daha fazla bilgi her zaman daha iyidir ... Sunucu üreticisine ve modeline sahip olmak bunu basitleştirecektir:

İşte HP ProLiant DL180 G6 Quickspecs'in bellek diyagramı :

resim açıklamasını buraya girin

Benim 1 numaralı CPU yuvasındaki DIMM'in doğru olduğunu düşünüyorum ... Ama bu HP donanımı. Tahmin etmenize gerek yok !!

HP'nin yönetim aracılarını kullanmalısınız, çünkü donanım sağlığı ve durumu hakkında platforma özgü ayrıntıları uyarabilir ve sağlayabilirler ...

[root@veloce ~]# hpasmcli
HP management CLI for Linux (v2.0)
Copyright 2008 Hewlett-Packard Development Group, L.P.

--------------------------------------------------------------------------
This server ProLiant DL180 G6  , is a Proliant 100 Series Server.
NOTE: Some hpasmcli commands may not be supported on 100 series servers.
      Type 'help' to get a list of all top level commands.
--------------------------------------------------------------------------
hpasmcli> show dimm
Cartridge #:    0
Processor #:    1
Module #:       2
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       1
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       4
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       6
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

teşekkürler, ilgili herhangi bir belge var mı?
Tanky Woo

@TankyWoo Evet, yukarıya bakın.
ewwhite

PROC1 DIMM 5FYani yuva gerçekten doğrulanmadı mı? hpamscliDoğru bir DIMM almak için bir hp deb ayna eklemeli ve yüklemeliyim ?
Tanky Woo

Ben yüklemek zorunda hp-healthve Statusbir N/Asenin yapıştırılan çıkışla aynı.
Tanky Woo

hplog -vHP IML günlüğündeki girişleri kontrol etmek için çalıştırın .
ewwhite
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.