Not: Bu cevap fizik değil, ECC olmayan bellek modüllerindeki sessiz bellek hataları ile ilgilidir. Bazı hatalar dış uzaydan, bazıları - masaüstünün iç uzayından gelebilir.
CERN kümeleri ve Google veri merkezleri gibi büyük sunucu çiftliklerinde ECC bellek hataları ile ilgili birkaç çalışma vardır. ECC'li sunucu sınıfı donanım, tüm tek bit hatalarını algılayabilir ve düzeltebilir ve birçok çok bitli hatayı algılayabilir.
ECC olmayan masaüstü bilgisayarların (ve ECC olmayan mobil akıllı telefonların) olduğunu varsayabiliriz. Makalelerde ECC ile düzeltilebilir hata oranları (tek bitflips) olup olmadığını kontrol edersek, ECC olmayan bellekte sessiz bellek bozulma oranını bilebiliriz.
Büyük ölçekli CERN 2007 çalışması "Veri bütünlüğü" : satıcılar " bellek modülleri için 10-12 Bit Hata Oranı ", " gözlenen bir hata oranı beklenenden 4 büyüklükte daha düşüktür " diyor. Veri yoğun görevler için (8 GB / sn bellek okuma) bu, her dakika ( 10-12 satıcı BER) veya iki günde bir ( 10-16 BER) tek bit çevirme olabileceği anlamına gelir .
2009 Google'ın kağıt "Wild DRAM hatalar: Bir Büyük Ölçekli Saha Çalışması" Mbit başına 25000-75000 tek bitlik uygun olduğunda (orada olabileceğini söylüyor milyar saatten başına sürede arızaları 1'e eşit olduğu), - 5 bitlik Hesaplamalarımdan sonra 8GB RAM için saatte hata. Paper aynı şeyi söylüyor: " GB başına yıllık 2000–6000 düzeltilebilir hata oranı ortalaması ".
2012 Sandia raporu "Büyük Ölçekli Yüksek Performanslı Hesaplama için Sessiz Veri Bozulması Tespiti ve Düzeltilmesi" : "çift bitli döndürmeler olası görülmedi" ancak ORNL'in yoğun Cray XT5'inde "75.000+ DIMM için günde bir kez" bile var ECC ile. Ve tek bit hataları daha yüksek olmalıdır.
Bu nedenle, program büyük veri kümesine (birkaç GB) veya yüksek bellek okuma veya yazma hızına (GB / s veya daha fazla) sahipse ve birkaç saat çalışırsa, masaüstü donanımında birkaç sessiz bit döndürmeyi bekleyebiliriz. Bu oran memtest tarafından tespit edilemez ve DRAM modülleri iyidir.
Uzun küme, BOINC internet çapında grid computing gibi binlerce ECC olmayan bilgisayarda çalışır, her zaman bellek bit çevirme ve ayrıca disk ve ağ sessiz hatalarından hatalar olacaktır.
Sandia'nın 2012 raporunda gördüğümüz gibi, tek bit hatalarından ECC korumasına sahip daha büyük makineler (10 bin sunucu) için, her gün çift bit döndürmeler olabilir, bu nedenle tam boyutlu paralel çalıştırma şansınız olmayacaktır. birkaç gün boyunca program (düzenli kontrol noktası olmadan ve çift hata durumunda son iyi kontrol noktasından yeniden başlatılmadan). Büyük makineler ayrıca önbelleklerinde ve cpu kayıtlarında (hem ALU veri yolunda hem mimari hem de dahili çipin tetikleyicileri) bit döndürürler, çünkü hepsi ECC tarafından korunmaz.
Not: DRAM modülü bozuksa işler çok daha kötü olacaktır. Örneğin, birkaç hafta sonra ölen dizüstü bilgisayara yeni DRAM taktım. Çok fazla bellek hatası vermeye başladı. Ne aldım: dizüstü bilgisayar kilitleniyor, linux yeniden başlatılıyor, fsck çalışıyor, kök dosya sisteminde hatalar buluyor ve hataları düzelttikten sonra yeniden başlatmak istediğini söylüyor. Ama bir sonraki her yeniden başlatmada (yaklaşık 5-6 tane yaptım) hala kök dosya sisteminde bulunan hatalar var.