APEI Genel Donanım Hatası


9

Geçen hafta sunucum (Debian Jessie'yi çalıştırıyor) iki kez yeniden başlatıldı. Sistem günlüğünde bunu her yeniden başlatmadan önce görüyorum ve başka hiçbir noktada yok:

Aug 15 13:32:58 hoshimiya kernel: [296512.005355] {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
Aug 15 13:32:58 hoshimiya kernel: [296512.005360] {1}[Hardware Error]: It has been corrected by h/w and requires no further action
Aug 15 13:32:58 hoshimiya kernel: [296512.005361] {1}[Hardware Error]: event severity: corrected
Aug 15 13:32:58 hoshimiya kernel: [296512.005362] {1}[Hardware Error]:  Error 0, type: corrected
Aug 15 13:32:58 hoshimiya kernel: [296512.005363] {1}[Hardware Error]:  fru_text: CorrectedErr
Aug 15 13:32:58 hoshimiya kernel: [296512.005364] {1}[Hardware Error]:   section_type: memory error
Aug 15 13:32:58 hoshimiya kernel: [296512.005365] [Firmware Warn]: error section length is too small

Bazı googling, bunun ECC RAM'imin bir hatayı algılayıp kurtarmasıyla ilgili olduğuna inanmamı sağlıyor. Bu doğru mu? İyileşiyorsa, sistem neden yeniden başlatılıyor? Mümkünse sistemin yeniden başlatılmasını önlemek istiyorum.

Yanıtlar:


9

RAM'iniz arızalı veya düzeltilen hatalar var gibi görünüyor. Şiddetine bağlı olarak, bu hataların işleyebilme yeteneğini etkilediği ve daha sonra yeniden başlatılması gerektiği gibi geliyor.

Bu iş parçacığının görünüşünden, sondaki hata bölümü uzunluğunun çok küçük olduğu mesaj biti muhtemelen suçludur.

alıntı - [PATCH 1/1] efi: cper: Hata Bölümünün farklı uzunluğunu destekleyin

Bazı alanlar daha yeni UEFI spesifikasyonundaki Hata Bölümüne eklenebilir. Örneğin, 'Ayrılmış', 'Sıra Numarası', 'Kart Tutamağı' ve 'Modül Tutamağı' alanları UEFI spec 2.3'ten başlayan Bellek Hatası Bölümüne eklenir. Ne yazık ki, bellek düzeltilmiş hata algılanırsa ve acpi_generic_data yapısındaki 'revizyon' alanı 0x203'ten (UEFI spec 2.3) küçükse, aşağıdaki uyarı mesajına sahip olacaktır:

{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 3
{1}[Hardware Error]: It has been corrected by h/w and requires no further action
{1}[Hardware Error]: event severity: corrected
{1}[Hardware Error]:  Error 0, type: corrected
{1}[Hardware Error]:   section_type: memory error
[Firmware Warn]: error section length is too small

Bu davranış, bu düzeltilen hatanın düzgün görüntülenememesine neden olur. Sorunu çözmek için, bu düzeltme eki farklı UEFI spesifikasyon sürümü için farklı Hata Bölümünün uzunluğunu destekler.

Ve bu yama cper_estatus_print_section işlevindeki yinelenen kodları temizlemek için önceden tanımlanmış bir yapı kullanır.

Bu düzeltme eki uygulandığında, hatayı düzelttikten sonra bellek düzeltilmiş hatası doğru görüntülenebilir.

Grantley platformu ve Intel RAStool ile v3.14-rc5 üzerinde test edildi.

Bu nedenle, belirli bir hatanın çalışmalarda olduğu ve çekirdeğin daha yeni bir sürümünde mevcut olabileceği için bir yama gibi görünüyor.


3

Bilginize çok benzer bir sorunum var gibi görünüyordu.

Anlaşıldığı gibi, çözüm hafızayı çıkarıp tekrar takıyordu ve her şey normale döndü.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.