Sunucularda ECC ram kullanımı hakkında bir tartışma gördüm. Neden daha iyi
Sunucularda ECC ram kullanımı hakkında bir tartışma gördüm. Neden daha iyi
Yanıtlar:
ECC RAM, eşlik bitlerini kullanarak bitlerdeki küçük hatalardan kurtulabilir. Sunucular çalışma süresi ve güvenilirliğin önemli olduğu ortak bir kaynak olduğundan, ECC RAM genellikle fiyattaki mütevazı bir farkla kullanılır. ECC RAM, CAD / CAM iş istasyonlarında da kullanılıyordu; küçük bit hataları, bir tasarım üretime geçtiğinde daha önemli sorunlara neden olan hesaplama hatalarına neden olabilirdi.
Mükemmel gerçek dünya çalışması:
Vahşi Doğadaki DRAM Hataları: Büyük Ölçekli Bir Saha Çalışması (pdf)
Bu makale, alandaki DRAM bellek hatalarının ilk geniş çaplı çalışmasını sağlar. Milyonlarca DIMM gününü oluşturan, iki yıldan fazla bir süre boyunca Google'ın sunucu filosundan toplanan verilere dayanmaktadır. Çalışmamızdaki DRAM birden fazla tedarikçiyi, DRAM yoğunluğunu ve teknolojisini (DDR1, DDR2 ve FBDIMM) kapsamaktadır.
Bu makale aşağıdaki soruları ele almaktadır: Pratikte bellek hataları ne kadar yaygındır? İstatistiksel özellikleri nelerdir? Sıcaklık ve sistem kullanımı gibi dış faktörlerden nasıl etkilenirler? Ve bunlar çip yoğunluğu, bellek teknolojisi ve DIMM yaşı gibi yongaya özgü faktörlere göre nasıl değişiyor?
Alandaki DRAM hatalarının birçok yönden, genel varsayıldığından çok daha farklı davrandığını tespit ediyoruz. Örneğin, daha önce bildirilenden daha yüksek büyüklükteki DRAM hata oranlarını, MIT başına 25.000 ila 70.000 ve yıllık olarak etkilenen DIMM'lerin% 8'inden daha fazla FIT oranları olduğunu gözlemledik. Bellek hatalarının, önceki çalışmaların çoğunun odaklandığı yumuşak hatalardan ziyade sert hataların egemen olduğuna dair güçlü kanıtlar sunuyoruz. DIMM'in sahadaki hata davranışını etkileyen tüm faktörlerden, sıcaklığın şaşırtıcı derecede küçük bir etkisi olduğunu bulduk. Son olarak, sıkça korkulanların aksine, DIMM başına hata oranlarının yeni nesil DIMM'lerle birlikte arttığına dair herhangi bir belirti görmüyoruz.
Bellek hatalarının çoğunun zor olması ilginçtir - bellek hataları kurtarılamaz; bu, belleğin fiziksel olarak başarısız olarak değiştirilmesi gerektiği anlamına gelir . Bu bana ECC'nin değerinin oldukça sınırlı olduğunu gösteriyor.
Bir bellek sisteminde tipik olarak meydana gelebilecek iki tür hata vardır. Birincisine tekrarlanabilir veya zor bir hata denir. Bu durumda, bir donanım parçası arızalıdır ve sürekli olarak yanlış sonuçlar verecektir. Biraz sıkışıp kalabilir, böylece üzerine ne yazılsa yazsın, örneğin her zaman "0" döndürür. Sert hatalar genellikle gevşek bellek modüllerini, şişmiş cipsleri, anakart kusurlarını veya diğer fiziksel sorunları gösterir. Teşhis edilip düzeltilmeleri nispeten kolaydır çünkü tutarlı ve tekrarlanabilirdirler.
Çalışmadaki tüm sunucular ECC'yi kullanıyor olsalar da, ECC'ye karşılık ECC dışı hata oranlarını bilemeyiz.
Bu yazıda, geniş bir emtia sunucusu filosunda DRAM hatalarının görülme sıklığı ve özellikleri incelenmiştir. Çalışmamız 2 yıldan fazla bir süredir toplanan verilere dayanmaktadır ve birden fazla satıcının DIMM'sini, nesiller, teknolojiler ve kapasiteleri kapsar. Tüm DIMM'ler, en az tek bit hatalarını düzeltmek için hata düzeltme mantığı (ECC) ile donatıldı.
ECC'nin parite üzerinde bir takım avantajları vardır. Birincisi, tek bit hatalarını tespit edip onarabilir ve tüm sistemi durdurmak zorunda kalmadan bunu yapabilir. Çoklu bit hataları yine de bir eşlik hatası döndürür, ancak bu durumun ortaya çıkma olasılığı, bir bilgisayarın ömrü boyunca, belleğin kendisi kusurlu olmadığı sürece astronomik olarak düşüktür. ECC otomatik sigorta gibidir: Yanlış gidebilen şeylerin çoğunu kapsar, ancak çok araçlı yığılmayı önleyemez.
burada daha fazla ayrıntı: ECC belleği: Masaüstü bilgisayarlar için değil, sunucular için bir zorunluluktur
İşleri kolaylaştırmak için Wikipedia'dan alıntı yapmak :
Bir bilgisayar sistemi içindeki elektriksel veya manyetik parazit, tek bir DRAM bitinin kendiliğinden tersine dönmesine neden olabilir. Başlangıçta bunun temel olarak talaş paketleme malzemesinde kirletici maddeler tarafından yayılan alfa parçacıkları nedeniyle olduğu düşünülüyordu, ancak araştırma [5] DRAM yongalarındaki bir kerelik ("yumuşak") hataların çoğunun arka plan radyasyonunun bir sonucu olduğunu ortaya koydu.
...
Bu sorun, ekstra bitler içeren DRAM modülleri ve bu bitlerden yararlanan bellek denetleyicileri kullanılarak hafifletilebilir. Bu ekstra bitler eşliği kaydetmek veya bir hata düzeltme kodu kullanmak için kullanılır