Bu, sunucu donanımınıza bağlıdır. Bir beyaz kutu veya Supermicro sistemi bunu Dell, HP veya IBM'den farklı şekilde ele alacaktır ...
İleri teknoloji sunucuların katma değer özelliklerinden biri, bir düzeyde donanım / işletim sistemi entegrasyonu olmasıdır. Daha iyi sunucular aradığınızı yönetim aracıları ve / veya bant dışı yönetim çözümünün (ILO, DRAC, IPMI) bir parçası olarak rapor eder.
Donanım platformunuza özgü araçları kullanmalısınız.
Linux ve HP Management agentlarını çalıştıran bir HP ProLiant sunucularından alıntı:
Trap-ID=6056
ECC Memory Correctable Errors detected.
ve
Trap-ID=6052
Advanced ECC Memory Engaged
veya daha şiddetli
Trap-ID=6029
A correctable memory log entry indicates a memory module needs to be
replaced.
ya da en kötüsü ... Sunucu kötü RAM nedeniyle çökmesine kadar 6 gün boyunca bir hata yok sayılıyor
0004 Repaired 22:21 12/01/2008 22:21 12/01/2008 0001
LOG: Corrected Memory Error threshold exceeded (Slot 1, Memory Module 1)
0007 Repaired 02:58 12/07/2008 02:58 12/07/2008 0001
LOG: POST Error: 201-Memory Error Single-bit error occured during
memory initialization,
Board 1, DIMM 1. Bank containing DIMM(s) has been disabled.
0008 Repaired 19:31 12/08/2009 19:31 12/08/2009 0001
LOG: ASR Detected by System ROM
Bunlar kaydedildi, ayrıca SNMP tuzakları ve e-postalar gönderildi.
Genel olarak, çekirdek halkası arabelleğinde Makine Denetimi İstisnalarını göreceksiniz, böylece mcelog'u kontrol edebilir dmesg
veya çalıştırabilirsiniz . IPMI'siz Supermicro teçhizatı ile olan deneyimlerimde bu her şeyi yakalayamadı ve hala çatlakların arasından RAM hataları alıp kesintilere neden oldum. Ne yazık ki, bu sistem dağıtımından önce arkaik RAM yanma politikalarına yol açtı .