Sabit Diskleri Değiştirme [kapalı]


19

Ben bir dizi (oldukça) sistem kritik bir veritabanı sunucusunda belirli bir yıl kullanımdan sonra, ölmeden önce değiştirmek iyi bir fikir olup olmadığını merak ediyordum.

Örneğin, 3 yıllık kullanımdan sonra sabit diski değiştirmeyi düşünüyordum. Sunucular arasında çok sayıda sabit diskim olduğundan, hangi sabit disklerin değiştirileceğini sendeleyebilirim.

Bu iyi bir fikir mi, yoksa insanlar başarısızlığı mı bekliyor?

Yanıtlar:


33

Google, disk sürücüleri üzerinde bir çalışma yaptı ve disk yaşı ile başarısızlık arasında çok az korelasyon buldu. SMART testleri de arıza göstermez.

Yerel gözlemlerim (> 500 sunucu) benzer. Yeni diskler hızlı bir şekilde arızalanırken, eskileri hala takılıyor.

Genel kuralım disk sorunları (SMART veya sistem hataları) görürsek hemen değiştiririz. Aksi takdirde, sunucu yaptığında sürücüler devre dışı kalır.

Google Study http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en/us/archive/disk_failures.pdf


Genelde düşündüğüm şey buydu, ama başkalarının ne yaptığını görmek istedim. Teşekkürler
Garfonzo

2
Hemfikirim. Daha yeni 2.5 "SAS sürücülerde 3.5" 9GB SCSI sürücüler çalıştıran 10 yaşındaki sunuculardan çok daha yüksek arıza oranları görüyoruz!
James O'Gorman

@ JamesO'Gorman Üretim süreçleri değişiyor ... bazı mühendislik "değiş tokuşlarının" bir parçası olarak yeni sürücülere neler yapıldığını merak ediyor.
Avery Payne

1
Microsoft Technet'in ayrıca Hata Toleransı ile ilgili sabit sürücü / mekanik bileşen arızasına kısaca değinen bir makalesi var ( technet.microsoft.com/en-us/library/bb742464.aspx ) - Mekanik olarak "küvet eğrisi" hakkında biraz konuşuyorlar. bileşen hataları takip etme eğilimindedir.
voretaq7

@AveryPayne Yeni sürücüler, 2.5 "sürücülerin ÇOK daha sıkı toleranslara sahip olduğunu unutmayın. Sonuç olarak, 3.5" sürücüde "kabul edilebilir" mekanik eğimin 2.5 "sürücüde yıkıcı bir arızaya yol açabileceğini unutmayın. Ayrıca TechNet makalesine bakın. Küvet eğrisi hakkında bağlandım - Mekanik bileşenler genel olarak yüksek bebek ölümlerinden muzdarip ve daha sonra nihayet "yaşlılık" ölene kadar nispeten kararlıdır. 2.5 "sürücüler hala" bebek ölümleri "bölgesinde - benim için en az 1 yıllık operasyon.
voretaq7

13

Hayır.

Etkin bir üretim sunucusundaki sabit sürücüyü değiştirmeyle ilgili en büyük sorunlardan biri, bunu yapmanın yeniden oluşturmayı tetikleyeceğidir. Özellikle RAID5 kullanıyorsanız ve özellikle büyük sürücüler kullanıyorsanız, yeniden oluşturmaya zorlamak kurtarılamaz bir arıza için çok önemli bir risk oluşturur. Yeniden oluşturma sırasında diziyi kaybetme riski, 3 yaşındaki bir sürücüyü yerinde bırakma riskinden çok daha fazladır.

Aşırı bir örnek olarak, 2 TB disklerden oluşan 6 diskli bir RAID5 dizisindeki her diski art arda değiştirirseniz, yeniden oluşturmalardan biri sırasında kurtarılamayan bir okuma hatası için teorik riskiniz% 58 civarındadır (peçete matemama göre; lütfen kendiniz yapın ve notları karşılaştırın). Başka bir deyişle: "önleyici" disk değişiminiz aslında bir sabotaj eyleminden daha az bir şey değildir .

Eski bir sunucuda diskleri yenilemeyi düşündüğüm tek zaman, örneğin bir görevden çıkarıldıktan sonra ve yeni bir rolle tekrar hizmete sokulmadan önce "yenilenmesi" sırasında olur. Bu noktada bile, kapasite ve performans gereksinimleri sürücülerin yaşından çok daha önemli olacaktır.


1
Yeniden oluşturmayı tetikleyen +1
gregmac

Riskin neden% 58 olduğunu açıklayabilir misiniz? Disk düzenli olarak devriye gezilirse neden daha fazla toparlanmaya neden olur?
Mircea Vutcovici

@MirceaVutcovici çünkü bir RAID-5 düzenlemesinde, tüm sürücüler yeniden oluşturma sırasında sürekli olarak burada veya orada rastgele aramaya karşı aktif olacaktır. Başka bir deyişle, tüm sürücülerdeki "yük" artar ve bunu yaparken 2. başarısız bir sürücüyü tetikleme riskiniz de artar.
Avery Payne

@Avery Payne Yeniden oluşturma sırasında diskleri daha fazla vurguladığınızı biliyorum. Yeniden oluşturma neden diskleri bir tutarlılık denetimi daha fazla vurgulamak anlamaya çalışıyorum.
Mircea Vutcovici

@MirceaVutcovici Kesin rakam (ve matematiğin nasıl yapılacağı) tartışmalıdır, ancak sonuçta , herhangi bir okuma hatasını düzeltmek için bir eşlik diskinin faydası olmadan, 10 terabayt veriyi altı kez okumak zorundasınız . altı yeniden inşa. Hatasız 60 terabayt veri okuma olasılığı sizin lehinize değil.
Skyhawk

3

Görmedim. 5 yıl - üretimden kaldırılana kadar sunucuları garanti altında tutuyoruz. Standart RAID 5 sadece birkaç sürücüler eldeki tutmak yüzden hemen yeniden başlatabilir ve kritik sunucularda, bir hotspare içeren veya RAID 10. gitmek için bir disk arızası hayatta kalmak için izin verir

Eğer başarısız birkaç sürücüler fark ettiyseniz Son zamanlarda bir sunucuda bir arka panel sorununuz olabilir. Yakındaki yapıdan da yeni titreşim veya toz olabilir.


Bu tamamen doğru değil. disklerinizin büyük bir kısmı aynı lottan geliyorsa, yeniden oluşturma stresini eklediğinizde çok daha fazla eşzamanlı arıza riskiyle karşılaşırsınız. Başka bir cevapta belirtildiği gibi, artan RAID5 boyutları, dizinizi raid5 geçerlilik eşiğinin altına çeken yeniden oluşturma sırasında artan bir URE olasılığı çalıştırır.
Magellan
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.