ECC ram nedir ve neden daha iyidir?


31

Sunucularda ECC ram kullanımı hakkında bir tartışma gördüm. Neden daha iyi


2
Soru başka bir soruya cevap verdi: serverfault.com/questions/5817/…
sh-beta

ECC belleğinin kullanılması gerektiğine ya da faydalı olduğuna dair herhangi bir kanıt var mı? Eylemin yararları ve mekanizmasının anlaşılması kolaydır, ancak kullanımını haklı çıkaracak kanıtlar hiç duymadım.
Drew Stephens

Ve böyle bir hafıza (bit) hatasıyla karşılaşmanın olası çeşitli sonuçları nelerdir? Örneğin, 5 yıl boyunca kesintisiz çalışan bir sunucuyu kapattım (ECC ram ile) ve genel olarak her şey yolunda gittiğinde, orada barındırılan ya da hiç büyük bir deneyim yaşayan müşterilerden hiçbir şikayetim olmadı onunla hata ... Masaüstü bilgisayarımın deneyimi ile aynı - burada ve orada bir BSOD oldukça nadir, ama hepsi bu? :)
Denis Volovik

@Denis, insanların sorunuzu yanıtlamasını istiyorsanız, yorum yapmak yerine ayrı bir soru sormanız gerekebileceğini düşünüyorum.
Toby Allen

Yanıtlar:


28

ECC RAM, eşlik bitlerini kullanarak bitlerdeki küçük hatalardan kurtulabilir. Sunucular çalışma süresi ve güvenilirliğin önemli olduğu ortak bir kaynak olduğundan, ECC RAM genellikle fiyattaki mütevazı bir farkla kullanılır. ECC RAM, CAD / CAM iş istasyonlarında da kullanılıyordu; küçük bit hataları, bir tasarım üretime geçtiğinde daha önemli sorunlara neden olan hesaplama hatalarına neden olabilirdi.


5
Birisinin küçük işletme finans paketi de dahil olmak üzere herhangi bir yerinde bir miktar hata, çok küçük veya çok büyük olabilir. Her şey ne kadar bağlı.
Zan Lynx,

Birleştirmeyi sanallaştırdığınızda, yanlış yerdeki yanlış hatanın birden fazla makineyi daha fazla düşürebileceği gerçeğini de ekleyin.
MikeyB

1
Ben sadece ahlaksız bir şirketin muhasebe dolandırıcılığının aslında sadece bir hata olduğunu iddia etmesini bekliyorum.
Eloff

29

Mükemmel gerçek dünya çalışması:

Vahşi Doğadaki DRAM Hataları: Büyük Ölçekli Bir Saha Çalışması (pdf)

Bu makale, alandaki DRAM bellek hatalarının ilk geniş çaplı çalışmasını sağlar. Milyonlarca DIMM gününü oluşturan, iki yıldan fazla bir süre boyunca Google'ın sunucu filosundan toplanan verilere dayanmaktadır. Çalışmamızdaki DRAM birden fazla tedarikçiyi, DRAM yoğunluğunu ve teknolojisini (DDR1, DDR2 ve FBDIMM) kapsamaktadır.

Bu makale aşağıdaki soruları ele almaktadır: Pratikte bellek hataları ne kadar yaygındır? İstatistiksel özellikleri nelerdir? Sıcaklık ve sistem kullanımı gibi dış faktörlerden nasıl etkilenirler? Ve bunlar çip yoğunluğu, bellek teknolojisi ve DIMM yaşı gibi yongaya özgü faktörlere göre nasıl değişiyor?

Alandaki DRAM hatalarının birçok yönden, genel varsayıldığından çok daha farklı davrandığını tespit ediyoruz. Örneğin, daha önce bildirilenden daha yüksek büyüklükteki DRAM hata oranlarını, MIT başına 25.000 ila 70.000 ve yıllık olarak etkilenen DIMM'lerin% 8'inden daha fazla FIT oranları olduğunu gözlemledik. Bellek hatalarının, önceki çalışmaların çoğunun odaklandığı yumuşak hatalardan ziyade sert hataların egemen olduğuna dair güçlü kanıtlar sunuyoruz. DIMM'in sahadaki hata davranışını etkileyen tüm faktörlerden, sıcaklığın şaşırtıcı derecede küçük bir etkisi olduğunu bulduk. Son olarak, sıkça korkulanların aksine, DIMM başına hata oranlarının yeni nesil DIMM'lerle birlikte arttığına dair herhangi bir belirti görmüyoruz.

Bellek hatalarının çoğunun zor olması ilginçtir - bellek hataları kurtarılamaz; bu, belleğin fiziksel olarak başarısız olarak değiştirilmesi gerektiği anlamına gelir . Bu bana ECC'nin değerinin oldukça sınırlı olduğunu gösteriyor.

Bir bellek sisteminde tipik olarak meydana gelebilecek iki tür hata vardır. Birincisine tekrarlanabilir veya zor bir hata denir. Bu durumda, bir donanım parçası arızalıdır ve sürekli olarak yanlış sonuçlar verecektir. Biraz sıkışıp kalabilir, böylece üzerine ne yazılsa yazsın, örneğin her zaman "0" döndürür. Sert hatalar genellikle gevşek bellek modüllerini, şişmiş cipsleri, anakart kusurlarını veya diğer fiziksel sorunları gösterir. Teşhis edilip düzeltilmeleri nispeten kolaydır çünkü tutarlı ve tekrarlanabilirdirler.

Çalışmadaki tüm sunucular ECC'yi kullanıyor olsalar da, ECC'ye karşılık ECC dışı hata oranlarını bilemeyiz.

Bu yazıda, geniş bir emtia sunucusu filosunda DRAM hatalarının görülme sıklığı ve özellikleri incelenmiştir. Çalışmamız 2 yıldan fazla bir süredir toplanan verilere dayanmaktadır ve birden fazla satıcının DIMM'sini, nesiller, teknolojiler ve kapasiteleri kapsar. Tüm DIMM'ler, en az tek bit hatalarını düzeltmek için hata düzeltme mantığı (ECC) ile donatıldı.


5
+1 güzel rapor. ECC dışı hata oranlarını bilmeme rağmen , ECC dışı hata oranlarının yaklaşık olarak GB başına ECC hata oranlarıyla aynı olduğunu tahmin ediyorum . Kullanılan aynı RAM yongaları hem ECC hem de ECC olmayan DIMM'lerde kullanılır (ECC DIMM'leri sadece 9/8 kullanır - 64 bit veri kelimesini saklamak için 72 ham bellek bit ve 8/9 hata oranı kabaca aynı hata oranı) ve ben bir RAM yongasının ECC DIMM'ye yerleştirildiğinde ECC olmayan bir DIMM'e yerleştirildiğinde önemli ölçüde farklı bir hata oranına sahip olmasının bir nedeni olmadığını görüyorum.
David Cary

9

ECC'nin parite üzerinde bir takım avantajları vardır. Birincisi, tek bit hatalarını tespit edip onarabilir ve tüm sistemi durdurmak zorunda kalmadan bunu yapabilir. Çoklu bit hataları yine de bir eşlik hatası döndürür, ancak bu durumun ortaya çıkma olasılığı, bir bilgisayarın ömrü boyunca, belleğin kendisi kusurlu olmadığı sürece astronomik olarak düşüktür. ECC otomatik sigorta gibidir: Yanlış gidebilen şeylerin çoğunu kapsar, ancak çok araçlı yığılmayı önleyemez.

burada daha fazla ayrıntı: ECC belleği: Masaüstü bilgisayarlar için değil, sunucular için bir zorunluluktur


1
Makaleye katılmıyorum. Bence herkes ECC kullanıyor olmalı. Ben pes etmeyecektim ama sonunda yapacak kadar yeni bir Çekirdek I7 istedim. Ancak, 6GB RAM'imin her yerde hatalar aldığından eminim.
Zan Lynx,

4
@zan ve bu hataların "emin" olduğunun, sonuçlarının ne olduğu?
Jeff Atwood

Tahmin etmeyin; düzeltilebilecek hatalar, işletim sistemine kaydedilebilecek MCE'leri uyarmak zorundadır (Windows'ta Sistem Girişi, / var / log / mcelog, Linux'ta)
MikeyB

@JeffAtwood: Genelde hiçbir şey yok, ancak ara sıra mavi ekranım vardı. Ben sistemlerde do ECC olması durumunda, her ay tek bit hataları bir çift göreceksiniz.
Zan Lynx

@JeffAtwood: Eminim herkes gibi ben de bir uygulamayı yeniden yüklemek zorunda kaldım (Office. Visual Studio.) Çünkü görünüşe göre delirdi. Uygulama hatası veya ECC hatası bozuk disk dosyasına neden mi? ECC'nin olmadığını kim bilebilir?
Zan Lynx

5

İşleri kolaylaştırmak için Wikipedia'dan alıntı yapmak :

Bir bilgisayar sistemi içindeki elektriksel veya manyetik parazit, tek bir DRAM bitinin kendiliğinden tersine dönmesine neden olabilir. Başlangıçta bunun temel olarak talaş paketleme malzemesinde kirletici maddeler tarafından yayılan alfa parçacıkları nedeniyle olduğu düşünülüyordu, ancak araştırma [5] DRAM yongalarındaki bir kerelik ("yumuşak") hataların çoğunun arka plan radyasyonunun bir sonucu olduğunu ortaya koydu.
...
Bu sorun, ekstra bitler içeren DRAM modülleri ve bu bitlerden yararlanan bellek denetleyicileri kullanılarak hafifletilebilir. Bu ekstra bitler eşliği kaydetmek veya bir hata düzeltme kodu kullanmak için kullanılır

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.