Sunucu sınıfı donanım için RAM yakmak gerekli midir?


31

Birçok sunucu sınıfı sistemin ECC RAM ile donatıldığını göz önünde bulundurarak, dağıtımdan önce bellek DIMM'lerini yakmak gerekli mi yoksa faydalı mı?

Ben bir ortam karşılaştığınız tüm sunucu RAM uzun yanık-In / stres tesing sürecinde yerleştirilir. Bu, arada sırada sistem dağıtımlarını geciktirdi ve donanımın tedarik süresini etkiler.

Sunucu donanımı öncelikle Supermicro'dur , bu nedenle RAM çeşitli satıcılardan temin edilir; Dell Poweredge veya HP ProLiant gibi doğrudan üreticiden değil .

Bu yararlı bir egzersiz mi? Geçmiş tecrübelerime göre, sadece kutudan satıcı RAM kullandım. Olmamalı POST bellek testleri yakalamak DOA bellek? ECC eşiğine genellikle garanti vermenin tetikleyicisi olduğu için, bir DIMM'nin gerçekten başarısız olmasından çok önce ECC hatalarına cevap verdim.

  • Eğer burn-in Do sizin RAM?
  • Öyleyse, testleri yapmak için hangi yöntemleri kullanıyorsunuz?
  • Dağıtım öncesinde herhangi bir sorun tespit etti mi?
  • Yakma işlemi, bu adımı gerçekleştirmemek yerine ek bir platform dengesiyle sonuçlandı mı?
  • Mevcut çalışan bir sunucuya RAM eklerken ne yaparsınız ?

Yanıtlar:


25

Kingston tarafından Sunucu Belleği ile nasıl çalıştıklarını anlatan bir belge buldum , bu sürecin normalde çoğu üretici için aynı olacağına inanıyorum. Bellek yongalarının yanı sıra tüm yarı iletken aygıtlar, Küvet Eğrisi olarak bilinen belirli bir güvenilirlik / hata düzenini takip eder:

görüntü tanımını buraya girin

Zaman yatay eksende gösterilir, fabrika sevkiyatı ile başlar ve üç ayrı zaman diliminde devam eder:

  • Erken Yaşam Hataları: Çoğu başarısızlık erken kullanım döneminde meydana gelir. Ancak, zaman geçtikçe, başarısızlıkların sayısı hızla azalır. Sarı renkte gösterilen Erken Yaşam Hatası dönemi yaklaşık 3 aydır.

  • Yararlı Yaşam: Bu süre zarfında, başarısızlıklar son derece nadirdir. Yararlı yaşam süresi mavi renkte gösterilir ve 20+ yıl olduğu tahmin edilmektedir.

  • Ömür Sonu Arızaları: Sonunda yarı iletken ürünler aşınır ve arızalanır. Yaşamın Sonu Dönemi yeşil renkle gösterilir.

Şimdi Kingston, yüksek başarısızlık oranlarının ilk üç ayda ortaya çıkacağını belirtti (bu üç aydan sonra ünitenin EOL olana kadar yaklaşık 15 - 20 yıl sonra iyi olduğu kabul edildi). Her DRAM yongasının tüm hücrelerinin sürekli olarak çalıştığı sunucu bellek modüllerini yüksek gerilimde 100 santigrat derece sıcaklıkta 24 saat boyunca acımasızca test eden KT2400 adlı bir ünite kullanarak bir test tasarladılar ; Bu yüksek seviye stres testi, modüllerin en az üç ay yaşlanma etkisine sahiptir (çoğu modülün arıza gösterdiği kritik süreden önce belirtildiği gibi).

Sonuçlar şunlardı:

Mart 2004’te, Kingston, sunucu belleğinin yüzde 100’ünün KT2400’de test edildiği altı aylık bir denemeye başladı. Arızalardaki değişimi ölçmek için sonuçlar yakından takip edildi. Eylül 2004’te, tüm test verileri derlenip analiz edildikten sonra, sonuçlar başarısızlıkların yüzde 90 oranında azaldığını gösterdi. Bu sonuçlar beklentileri aştı ve zaten sınıfının en üstünde olan bir ürün grubu için kayda değer bir gelişme gösteriyor.

Peki neden bellekte yazmak sunucu belleği için faydalı değil? Basitçe, çünkü zaten üretici tarafından yapıldı!


10
Çip üreticisi ve belki de sunucu satıcısı bazı cipsleri test edebilir . Ancak, ilk bileşenler maliyeti düşürmek için bugünlerde sadece test edilmiştir. Çipleriniz veya tüm DIMM'leriniz bir kez test edilmiş olsa bile, bu, kontakların veya PCB'nin montaj veya nakliye sırasında bir şekilde tweaked veya karışık olup olmadığını söylemez. Bir MemTEst86 yanması, iki farklı sunucudan, iki farklı "seviye 1" sunucu satıcısından gelen kutuyla ilgili sorunları bulmada sorun yaşadık. Eğer üretime sokmuşlarsa, ECC bizi kurtarmış olabilirdi, ancak sessiz veri tabanı bozulmasının da sonucu olabilirdi.
rmalayter

7
Bu küvet eğrisi sadece yarı iletkenler için değildir. Herhangi bir kalite kontrol derecesi ile inşa edilmiş çoğu bileşen aşağıdakileri takip eder: sabit diskler, SSD'ler, güç kaynakları (özellikle kapasitörler nedeniyle), fanlar, vb.
voretaq7 21

6
Elektronik konusunda asla uzun vadeli garanti almamamın nedenlerinden biri de bu. Cihaz (veya bileşen) ilk birkaç ay içinde arıza yapacak veya ömrünün sonuna kadar devam edecektir. Bu aynı zamanda, kötü elmaları erkenden ayıklamanın neden bu kadar önemli olduğunu gösterir, böylece en kısa sürede pürüzsüz yelkenlere çıkabilirsiniz.
Atari911,

@ rmalayter Yani yine de RAM yazmayı savunuyorsunuz?
ewwhite'de

2
@beyaz Evet, test ederim. Memtest86’yı başlatmak ve 384 GB RAM’i kontrol etmesine izin vermek sadece birkaç saat sürer. Tüm depolama altsistemlerinde de aynı sebepten IOmeter kullanarak yanıyoruz. İşletim sistemi kurulumu sırasında başlangıçta iyi çalışsalar bile, son birkaç yıl içinde yanma sırasında birkaç RAID denetleyicisi ya da sürücüsü ölmüştü. Bazen kötü bir ürün yazılımı, bazen hatalı RAID denetleyicisindeki önbellek RAM'iydi, bazen "kim bilir - RMA!"
rmalayter

30

Yok hayır.

Donanımda yanmanın amacı, onu bir bileşendeki bir arızayı katalize etme noktasına vurgulamaktır.

Bunu mekanik sabit sürücülerle yapmak bazı sonuçlar doğuracaktır, ancak RAM için çok fazla bir şey yapmayacaktır. Bileşenin doğası, çevresel faktörlerin ve yaşın, RAM'e okuma ve yazma yerine (birkaç saat veya gün boyunca maksimum bant genişliğinde bile) olamayacak kadar başarısız olma nedeni olma ihtimalinin çok yüksek olmasıdır.

RAM'inizin, ilk kez kullanmaya başladığınızda lehimin erimeyeceği kadar yüksek olduğunu varsayarsak, yanma işlemi kusurları bulmanıza yardımcı olmaz.


15

Blade'leri satın alıyoruz ve genellikle bir kerede oldukça büyük bir blokta alıyoruz, bu yüzden onları alır ve ağ bağlantı noktalarımız hazır / güvenli olmadan önce DAYS'a yükleriz. Bu yüzden memtest'i 24 saat boyunca kullanmak için kullanıyoruz, bazen hafta sonları geçerse daha uzun - bu bir kez temel ESXi'yi düşürüyoruz ve IP ağ kurulduktan sonra ana bilgisayar profilinin uygulanmasına hazır. Bu yüzden, evet, zorunluluktan daha fazla fırsat olmadan test ediyoruz, ancak daha önce birkaç DOA DIMM'i yakaladı ve fiziksel olarak bunu yapmam benim değil, bu yüzden bana çaba sarf etmemesini sağladı. Ben onun için


3
Bir "Fırsat Testi", yapma şansım verildiğinde anlamlıdır. Eğer konuşlandırmayı geciktirecekse, kötü bir DIMM ve ECC lambasını
riske atabilirim

2
Testi yerleştirme planına dahil ederseniz, zamanı kendinize aldınız, daha sonra her şeyi elinizden geldiğince hızlı yaparsanız, daha sonraki bir tarihte eleştiri için kendinizi hazırlarsınız.
Yapabildiğiniz

@ Chopper3 Eğer bir politika oluşturuyorsan, bunu her zaman yapar mısın? , asla yapmaz mısın? ya da ne zaman yapabilirsin? .
ewwhite'de

@wwhite - Ben ikincisini söylerim, bunu standart dağıtım planına göre tasarlamaya eğilimliyiz, bu yüzden her seferinde büyük olasılıkla.
Chopper3

11

Sanırım tam olarak senin süreçlerinin ne olduğuna bağlı. MemTest86'yı bir sisteme koymadan önce her zaman hafızada çalıştırırım (sunucu ya da başka türlü). Bir sistemi kurup çalıştırdıktan sonra, hatalı belleğin neden olduğu sorunların giderilmesi zor olabilir.

Gerçekte hafızayı "stres testi" olarak; Hızaşırtma amacıyla test etmediğiniz sürece, bunun neden yararlı olacağını bile anlamadım.


MemTest86 size ne söylüyor? Bu yöntemi kullanarak bir sunucuya kurmadan önce RAM sorunlarını buldunuz mu?
ewwhite

4
MemTest86 + ile BIOS ve Windows bellek tanılama araçlarının bulamadığı birçok hata buldum. Şiddetle tavsiye ederim. Evet, ECC de aynı hataları bulacak, ancak bir memtest onları vaktinden önce bulmanıza yardımcı olacaktır.
Owen Johnson,

6
MemTest, hafızanın iç kısımlarında herhangi bir kusur olup olmadığını size bildirecektir. Bunu, bir hatayı tetiklemek amacıyla bellekte bayt kalıplarının yanı sıra rasgele bayt gruplarını depolayarak yapar. Program hafızanın iyi olup olmadığını bildirmek için bir "pass" çalıştırabilir, ancak sadece emin olmak için bir gecede birden çok geçişi çalıştırırım. MemTest ile ilgili güzel şey, sistemi açmadan önce hafızanın kötü olup olmadığını söylemesi. Bir RMA'yı birçok kez tetikledi ve beni çok fazla ağrıttı. Makine açıldıktan sonra, hafızayı RMA'ya bağlamak için @ ss'de bir ağrı vardır.
Atari911

2
@OwenJohnson Genellikle MemTest86 (+) çalıştırdığınızda, makineyi üretime sokmadan önce bu ECC hatalarını tetiklemeyi umuyorsunuz :-)
voretaq7

6

Bilmiyorum, ama yapan insanları gördüm. Onlardan hiçbir şey kazanmadıklarını hiç görmedim, sanırım bir akşamdan kalma veya batıl inanç olabilir.

Şahsen, ECC hata oranlarının benim için daha faydalı olduğunu düşünüyorum - RAM’in DOA olmadığını farzedersiniz ama o zaman bunu zaten biliyorsunuzdur.


6

ECC olmayan ram memtest86 + 'da 30 dakika çalıştırıldığında, sistem çalışırken bit hatalarını algılamak için genellikle güvenilir bir yöntem olmadığından kullanışlıdır.
Mavi ekranlamanın güvenilir bir yöntem olduğu düşünülmüyor ...
Ve biraz lapa lapa RAM genellikle hemen görünmüyor, yalnızca sistem bazı tam bellek yükü gördükten sonra ve yalnızca bu RAM'deki veriler kullanılan kod ise sonra düştü. Veri bozulması, uzun süre farkedilmeden gidebilir.

ECC ram için, hiçbir şey yapmaz, bellek kontrol ünitesinin kendisi yapmaz, bu yüzden gerçekten mantıklı olmaz. Bu sadece zaman kaybı.

Tecrübelerime göre, yanma konusunda ısrar eden insanlar genellikle bunu her zaman böyle yapan ve gerçekten doğru şeyler düşünmeden alışkanlık dışı bırakan yaşlı insanlardır.
Ya da yaşlılar tarafından yazılan öngörülen prosedürü izleyen gençler.


Kötü bilgi, nesiller boyunca aktarılan?
ewwhite'de

@beyaz Evet, bildiğim kadarıyla. Benim de bir Bsc var. bilgisayar donanım teknolojisinde, bu yüzden neyden bahsettiğimi bilmem gerekiyor
Tonny

gerçekte hata bulan kişilerin tüm olayları hariç, başlığında gösterildiği gibi. Ayrıca, açık değilse, 24x7'de çalışan bir DB sunucusundaki bir sunucuyu üretime almadan veya ram değiştirmeden önce parçaların değiştirilmesinde bir fark vardır. Bu bir "Büyük hata" gibi davranmadığı sürece ve herkes eski ve kargo kültü işleri yapıyor, ama yine de prod sunucularının çevrimdışı kalmasına neden olacak.
Florian Heigl

1
@FlorianHeigl Bunun için RAM'de yazmayı savunmuyorum ama en az 24 saat boyunca stres testi yapılmadan bir sunucuyu üretime sokma konusunda hiçbir zaman onay vermeyeceğim. RAM genellikle sorun değil. Kesintili HDD'ler, RAID denetleyicileri, IPMI kartları, güç kaynakları, CPU'lar, VRM'ler ... Hepsini gördüm. (Ve sık sık sunucu ilk kurulumda hayatta kalır. Gerçekten çalışması gerektiğinde bunu yapan yük ve / veya sağlıktır.)
Tonny

3

Değişir.

50 000 yeni RAM dağıtıyorsanız ve bu belirli donanımın bir günden daha az çalıştıktan sonra% 0.01'lik bir arıza oranına sahip olduğunu biliyorsanız, istatistiksel olarak konuşursak, ilk günlerinde başarısız olacak birkaç tane olması gerekir. Yanmak, onu yakalamak içindir. Bu ölçekte dağıtımlarla, istisnai bir durum değil, başarısızlık beklenir.

Sadece birkaç yüz eşya dağıtıyorsanız, istatistiklerin büyük olasılıkla sizin tarafınızda olması muhtemeldir çünkü başarısız bir parça almak için oldukça şanssızsınız.


Bir noktan var. Btu ile yüzleşelim, çoğumuz o kadar büyük konuşlandırmalar yapmayacağız. (Yeni bir Google veri merkezi oluşturmuyorsanız.) Çoğumuz genellikle aynı anda en fazla 5 ila 10 sunucu dağıtırız. Şahsen yaptığım en büyük olay, her biri 8 DIMM alan 16 ESX düğümü (4x4 düğüm kümeleri) idi. Bu 3 yıl önceydi ve o zamandan beri 1 DIMM başarısız oldu (2 ay önce). Aynı makinelerdeki 5 güç kaynağını değiştirmek zorunda kaldım. Zaten bir hafta sonra ilk 1. Ancak bunlar HP Proliants olarak biz bunu bekledik. (HP ve güç kaynakları ..
Başlamayın
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.