Büyük Sürücülerde Yüksek Hata Oranı?


24

Geçenlerde 5x 1 TB sürücülü bir sunucu kullandım (markalarından bahsetmiyorum ama büyük ikisinden biriydi). Başlangıçta büyük kapasiteli sürücüler almaya karşı uyarıldım, bir arkadaşım bana çok düşük bir MTBF'ye sahip olduklarını söyledi ve daha fazla, daha küçük kapasiteye sahip sürücüleri ne “ teknoloji idare edebilir.

O zamandan beri, beş diskten üçü başarısız oldu. Neyse ki bir sonraki disk bozulmadan önce diziyi değiştirip yeniden yapmayı başardım, ama beni çok endişelendiriyor.

Düşüncelerin nelerdir? Onları kötü bir partide mi yakaladım? Veya daha yeni / daha yüksek kapasiteli disklerin, denenmiş ve test edilmiş disklerden daha başarısız olma olasılığı var mı?


2
Neden markadan bahsetmiyorsun? Sanırım partiniz, erken ölüm eğilimine sahip olduğu bilinen 7200.11 cuda idi.
Dani

Aslında, onlar Western Digital'di ...
Mark Henderson

Sadece kayıt için hepsini geri aldım ve yenilerini aldım ve iki aydır hiç sorun yaşamadan koşuyorlar.
Mark Henderson

Buna benzer birşey yaşadım. 16 1.5 TB sürücüler. İlk 4 ayda, 4 zor başarısız oldu. Önümüzdeki üç yıl içinde, bir yumuşak başarısız oldu.
David Schwartz

Yanıtlar:


19

Muhtemelen kötü bir partiniz vardır. Bu nedenle aynı gruptaki disklerden oluşturulan dizileri dağıtma konusunda endişeliyim - benzer bir ömre sahip olmaları muhtemeldir, bu da bir arıza olduğunda değiştirmeleri potansiyel olarak çok heyecan verici kılar.

Sürücülerde bir tasarım hatası olması imkansız değil, kesinlikle daha önce de oldu; ancak genellikle Internet, sürücü hakkında gerçekten bir sorun varsa, herhangi bir şey hakkında bulabileceğiniz genel arka plan gürültüsünün aksine, şikayetlerle doludur.


6
+1 Bunu hafifletmek için alımlarınızı boşaltmaya, farklı satıcılardan kaynak ayırmaya veya markaları karıştırmaya çalışın.
Rob Allen,

Ya da aynı yerden aynı yerden temin edilen sürücüleri "yakarak" hafifletebilirsiniz. Birkaç saat / gün boyunca bunlara karşı yazma yoğun bir program yürütün; farklı yaşlanma simüle etmek için şaşırtıcı süreler. Psuedo-random veriyi yazan, DriveTest adında basit bir program yarattım, ardından tekrar okur ve aynı anda "yakmak" ve basit bir test masası yapmak için doğrular. Bu ipucu SSD'ler için önerilmez.
rkager

13

Büyük bir kuruluşun kaynaklarına sahip olmadığınız sürece, cevaplanması zor bir soru. Google’ın sabit disk arızalarıyla ilgili araştırmasını görün .

Önemli miktarda disk satın alırken, genellikle en sondan bir nesil daha eski olan ve bayt başına en düşük maliyetli olan kaba disk boyutunu belirleyeceğim. Bu, bu neslin güvenilirliğini artıracaklarını anlamıştır.


1
1.5 - 2TB şu anda kanama kenarıdır, yani 1TB kriterlerinize uymuyor mu? Çok ucuzlar.
Mark Ransom

Çok iyi bir nokta.
Knox

10

Daha fazla tabla + daha fazla kafa daha yüksek başarısızlık şansına eşittir.

İki ortak WD sabit sürücü alın

640GB = iki tabak
1TB = üç tabak

    WD Black 640GB vs 1TB comparison

Drive Ready Time 11 sec  13
R/W Power watts  8.3     8.4
Idle Power watts 7.7     7.8
Standby watts    1       1
Max shock        300g    250g
Performance seek 29      33
Quiet seek       26      29

Bu ekstra tabla = daha fazla gürültü, daha fazla enerji kullanımı, daha fazla ısı, daha yavaş sürüşe hazır zaman, daha fazla şok hasarı ve daha fazla titreşim.

Aynı tahrik tasarımını sadece bir tabla ile yapsaydılar daha iyi özelliklere sahip olacaklardı. Bu durumda bunlar tüketici sınıfı sürücülerdir, ancak çift önbellek ve 5 yıl garantili yüksek sınıf tüketici sınıfı sürücülerdir. Herhangi bir marka ya da geleneksel sabit disk stilinde (dönen plakalar) olan belgeleri yakından incelerseniz benzer bir matematik göreceksiniz. Tamamen fizik meselesi, daha fazla plakanın bir sürücüyü daha az güvenilir hale getirmesi.

Jeff Hengesbach dediği zaman haklıydı.

'Büyük' ​​sürüşlerde öncelikli endişe, bir hatanın meydana geldiği zamanın yeniden inşasıdır. Sürücü ne kadar büyük olursa, yeniden o kadar uzun olursa, ek sürücü arızası ve dizinin olası kaybı için pencere o kadar büyük olur. "Büyük" sürücülerde, kullanılabilirliğin işletme değeri, RAID seviye seçiminizi ve sürücü sayınızı arttıracak kabul edilebilir bir risk düzeyi (dizi kaybı) belirlemelidir (Daha fazla sürücü = daha fazla sürücü arızası olasılığı).

küçük bir miktar Graeme Perrow ekleyin.

Elli milyon sektöre sahip bir sürücünün, beş milyon sektöre sahip bir sürücüye göre ondan daha kötü bir sektöre sahip olma şansı var. Büyük sürücüler ve küçük sürücüler arasındaki arıza oranının burada aynı olduğunu varsayalım, ki bu muhtemelen iyi bir varsayım değildir.

Daha fazla plaka = kötü
Daha fazla depolama alanı karışık bir çantadır. Bunun artıları ve eksileri çoktur.
Daha fazla sektör gerçekten hatalar için daha fazla şanstır. Ölçekte mutlaka doğrusal değil, kesinlikle bir faktördür.

Güvenilirlikten daha fazla alana ihtiyaç duymazsanız, tek plakalı veya çift plakalı sürücülere yapışmanızı öneririm. Bazı üreticilere sürücü siparişi verirken ne alacağınızı bilmek biraz araştırma gerektiriyor ve bazı üreticilerin sadece aynı parça numarası altında birden fazla disk satabilecekleri plaka sayısını yayınlamaktan kaçınmıyorlar.

Örneğin, WD3200AAKS, tek plakalı bir 320GB versiyona ve çift plakalı bir 320GB versiyona (160GB x 2) sahiptir. Bunun üzerine, kullanılan birden fazla etiket ve sürücü yuvası var, böylece sürücüye kolayca bakamaz ve hangi tepsinin içinde olduğunu bilemezsiniz. Bilmenin tek yolu WD3200AAKS-00B3A0 ve WD3200AAKS-75VYA0'ın size hangisinin tek bir tabla olduğunu söyleyeceğini, hangisinin size hangisi olacağını söyleyemeyeceğini bilmesi için çevrimiçi arama yapmaktır.


1
Vay. Bu bazı derin şeyler! Teşekkürler! Daha önce hareketli parçaların (plakaların) sayısını bile düşünmemiştim.
Mark Henderson

3

Normal başarısızlık oranının daha yüksek bir teknolojinin göstergesi olduğuna inanıyorum. Bana her zaman bir arabanın ilk model yılını almama, böcekleri çözene kadar beklemem söylendi. Aynı şeyin muhtemelen sabit diskler dahil diğer birçok şey için de geçerli olduğunu söyleyebilirim.


1
Tüm araba analojisini doğrulayabilirim (araba analojileri asla yanılmıyor, değil mi?). Acelem olduğunu kabul ettim ve hiç düzgün bir şekilde araştırmadım ve şimdi fiyatı ben ödüyorum!
Mark Henderson

3

'Büyük' ​​disklerin daha yüksek MTBF'ye sahip olup olmadığını söylemenin adil olacağından emin değilim. Bir avuç 750GB sürücüye sahip büyük bir isim sistemim var ve son 2+ yılda hiçbiri başarısız olmadı (750, 2 yıl önce "büyüktü"). Ancak, 250GB büyük olduğunda ve bu dizi birkaç kez düştüğünde ortaya çıkan büyük bir isim sistemini de biliyorum. MTBF tartışması kutsal bir savaş.

'Büyük' ​​sürüşlerde öncelikli endişe, bir hatanın meydana geldiği zamanın yeniden inşasıdır. Sürücü ne kadar büyük olursa, yeniden o kadar uzun olursa, ek sürücü arızası ve dizinin olası kaybı için pencere o kadar büyük olur. "Büyük" sürücülerde, kullanılabilirliğin işletme değeri, RAID seviye seçiminizi ve sürücü sayınızı arttıracak kabul edilebilir bir risk düzeyi (dizi kaybı) belirlemelidir (Daha fazla sürücü = daha fazla sürücü arızası olasılığı).

Business SATA / RAID, geçtiğimiz birkaç yıl içinde yoluna girdi. Büyük adların, büyük bir destek olayı olacağını veya bir müşteri kaynağını hayal kırıklığına uğrayacağını bilselerdi teklif edeceğini sanmıyorum. Orijinal serinin bir kısmını değiştirdiğinizden emin olarak, ileriye dönük güvenilirliğinizi bilmek isterim.


1

Hepsi aynı bilgisayarda mı yoksa disk denetleyicisinde mi? Diziyi yeniden kurmak zorunda olduğunu söyledin. Bu durumda, kontrolörde, güç kaynağında veya bellekte bir sorun olabilir . Olmazsa, hatalı bir sürücü grubunu da tahmin ederim. Ayrıca, belirli bir denetleyiciyle kullandığınız belirli sürücülerle bir uyumluluk sorunu olabilir.

Ayrıca, insanlar ne kadar büyük disklerin daha yüksek MTBF değerine sahip olduğunu söylese de merak ediyorum. Diyelim ki 2x250 GB ve 1x500 GB diskleriniz var. Belki bu saf değildir, ancak iki kat daha uzun süren sürücünün başarısız olabileceği daha fazla veriye sahip olmaz mı? MTBF'nin yanlış yazılmış veya yanlış yazılmış olup olmadığını veya diskin mekanik olarak kırıldığı anlamına geldiğini bilmiyorum. Sabit diskler için sıkı bir endüstri standardı ve MTBF tanımının olup olmadığını bilen var mı?


1

İşte kontrol edeceğim birkaç şey: 1) Sürücülerdeki seri numaraları oldukça yakın mı? Eğer öyleyse hatalı bir partiniz olabilir 2) Sunucunuzun içinde yaşadığı ortam nasıl? Son zamanlarda diğer donanım arızalarında sorun yaşadın mı? 3) Sürücüler Seagate Barracuda sürücüleri oluyor mu? Bu sürücülerle ilgili sorunlar var. Bu bilgisayar dünyası makalesine bakın . 4) Bu sürücüler bir sistemin parçası olarak mı geldi? Yoksa onları kendin mi aldın? OEM sürücüleri satın aldıysanız, satın almadan önce sürücülerin dikkatli kullanılmasını sağlamanın bir yolu yoktur.

Şahsen sabit disklerle ilgili inanılmaz şansım oldu. Sadece iki sürücüm üzerimde başarısız oldu. Bu hatalardan sadece biri benim kullandığım bir sürücüdeydi. Ancak, etrafımdaki birçok insanın sabit disklerde veri kaybına uğradığını gördüm.


Hmm, evet, hepsi çok yakınlar, ancak WD'ydi, Seagate değillerdi ve evet, OEM sürücülerdiler ... orada göz önünde bulundurmadığım birkaç şey ...
Mark Henderson

1

Büyük sürücülerin daha yüksek arıza oranı, yalnızca sürücülerin boyutunun bir işlevi olabilir. Elli milyon sektöre sahip bir sürücünün, beş milyon sektöre sahip bir sürücüye göre ondan daha kötü bir sektöre sahip olma şansı var. Büyük sürücüler ve küçük sürücüler arasındaki arıza oranının burada aynı olduğunu kabul ediyorum, bu muhtemelen iyi bir varsayım değil - başka birinin dediği gibi, terabayt sürücülerin hala nispeten yeni olduğu, muhtemelen daha yüksek bir arıza oranına sahip oldukları ile başlar.

Senin durumunda, kötü bir sürücü grubu gibi geliyor.


1

Tüm sürücüleri aynı anda aynı yerden satın aldıysanız, hepsinin tek bir iffy seriden gelmesi mümkündür.

Bir RAID dizisini bir araya getirirken genellikle karıştırma sürücülerini biraz, başka bir deyişle üreticilerin karışımını veya en azından farklı tedarikçilerin sürücülerini öneririm (tüm sürücülerin tek bir kötü seriden gelme riskini azaltmak için).

Yapabileceğim bir başka öneri, mümkünse daha küçük sürücüler kullanmaktır (yani sürücüler ve denetleyici bağlantı noktalarının takılması için fiziksel alanınız vardır), RAID 1 veya iki 1 TB sürücünün yerine dört 500Gb birim RAID 10 olması gerekir. Bu şekilde, bir sürücü kötü gittiğinde, yalnızca tüm diziyi yeniden kurmak yerine daha büyük bir dizinin parçası olan daha küçük bir diziyi yeniden oluşturursunuz (dizinin tamamlanmadığı sürenin uzunluğunu azaltır) ve ayrıca biraz daha fazla yedeklilik sunar. ("iki sürücü aynı anda başarısız olur" senaryosunun altısı dördü 4 sürücülü bir RAID10 dizisi yaşayacaktır). RAID denetleyiciniz / yazılımınız destekliyorsa, daha küçük R5 dizilerini bir R50 dizisine taramayla da aynısını yapabilirsiniz.

Belki de aşırı paranoyaklığım var, ancak bu sürücü yedek bir dizinin parçası olsa bile, tek bir sürücüye 1 TB veriye güvenmek konusunda temkinli olurum.

Açıkçası, tekniğin sizin için pratik hale getirememesine neden olabilecek oyunda fiziksel kısıtlamalar var, güç çekmek de kısıtlıyor, yani YMMV. Bir dizi veya diziler pratik olmadığında "örneğin" olarak : R1 dizisindeki daha büyük sürücüler yerine sunucularımızdan birinde dört disk kullanmayı tercih ederim, ancak fiziksel olarak yer yok harici bir dizi satın almak / inşa etmek bütçe dışındaydı ve veri koruma gereklilikleri nedeniyle verilerin fiziksel olarak diğer tüm verilerden ayrı tutulması gerektiğinden mevcut bir dizi üzerinde yer kullanamayız.


1

Biri daha büyük disklerin bu sorunu üzerine çok ayrıntılı bir çalışma yaptı. Sürücü boyutunun artmasına rağmen bit hata oranının sabit kalması ve bununla birlikte daha büyük disklerin yeniden yapılandırılması için daha uzun sürmesi gerekir. İkisi, yeniden yapılanma sırasında çok büyük bir gerçeklik alemine girmek için bir araya geldiler. RAID dizilerinde 500 gb veya daha küçük sürücülerle giderdim.


1

Üretim kullanımı için daima daha küçük kapasiteli sabit sürücüler kullanın. Arkasındaki fiziği hiç kontrol etmedim, ancak daha küçük diskler daha az sıklıkta bozulma eğilimindedir. Herkesin hep söylediği şey buydu.


0

Aynı seriden tüm diskleri ve aynı tedarikçiden gönderilen bir dizi oluşturdunuz mu? Bana bunun kötü bir şey olduğu söylendi.


0

RAID-6'yı düşünün. RAID-5 yeniden yapılanması sırasında sert bir okuma hatası oluşması ihtimali çok gerçek. Veya ZFS ile RAID-Z.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.