Ucuz bir depolama sunucusu için yeni HDD’leri test etmenin en iyi yolu


31

Bir depolama sunucusu oluşturmak ve satın almak istiyorum 10 x 2TB WD RED's. HDD'sAz önce geldi.

Disklerinize gerçek verileri kopyalamadan önce, kötü diskleri kontrol etmek veya bebek ölümlerine karşı en iyi şekilde savunmak için kullandığınız herhangi bir araç var mı?

Her birini kontrol etmek HDDveya ZFS raid-z2üzerinde çok fazla veri kopyalayarak dizi ( ) yi test etmek daha mı iyi ?


1
"WD Data LifeGuard Diagnostics" gibi üreticiye özel araçlar olduğunu biliyorum. Ama adamların ne yaptığını merak ediyorum, çok fazla hard disk satın alıyor. Her bir sabit sürücüyü kontrol ettiklerinden şüpheliyim (bu çok zaman alır ..) bu yüzden bir kerede tüm sabit disklerde SMART testi yapabilen bir araç olup olmadığını merak ediyorum?
s1lv3r

3
Sürücülere yazan her şey bir test olarak kullanılabilir; tam bir tokatlamak veya dizinin iki tanesi bebek ölümlerini yakalamak için yeterli olmalıdır. Bir çiftten fazlasını aldığınızda farklı üreticilerin / grupların sürücülerini satın almak gerçekten iyi bir fikirdir - aynı anda birkaç sürücünün arızalanma ihtimalini önemli ölçüde azaltır (benzer üretim hataları nedeniyle).
Chris S,

Yanıtlar:


14

Aynı soruyu 2 ay önce gördüm. Başarısız bir diske gönderdikten sonra, yedek disk 3 gün sonra NAS'ımda başarısız oldu. Bu yüzden şimdi yeni değiştirmeyi üretime sokmadan önce test etmeye karar verdim. Satın aldığım her yeni diski test etmiyorum, sadece tamamen yenilenmeyen diskler üzerinde test ediyorum.

Bu diskleri test etmek istediğinize karar verirseniz , yepyeni bir sabit diskte bir engelli taraması ve genişletilmiş bir SMART testi çalıştırmanızı tavsiye ederim .

2TB'lik bir diskte bu işlem 48 saat kadar sürer, badblock komutu diski bir desenle dolu olarak yazar, ardından desenin gerçekten orada olup olmadığını görmek için blokları tekrar okur ve bunu 4 farklı desenle tekrarlar.

Bu komut muhtemelen yeni bir disk üzerinde herhangi bir hatalı blok göstermeyecektir, çünkü diskler bugünlerde kötü blokları yeniden tahsis eder.

Bundan önce ve sonra akıllı bir test yaptım ve yeniden tahsis edilen ve mevcut bekleyen sektör sayısını kontrol ettim. Bunlardan herhangi biri yükselmişse, diskinizde zaten bazı hatalı bloklar vardır ve bu nedenle güvenilmez olduğunu ispatlayabilir.

Bundan sonra tekrar genişletilmiş bir SMART testi yapıyorum.

Önce smartctl veya smartmontools kurmak isteyebilirsiniz.

Uyarı , badblocks -w bayrağı, diskin üzerine yazmadan, yalnızca bir okuma kontrolü yapmak istiyorsanız, diskinizdeki tüm verilerin üzerine yazacaktır.badblocks -vs /dev/sdX

sudo smartctl -a /dev/sdX
# record these numbers
sudo badblocks -wvs /dev/sdX
# let it run for 48 hours
sudo smartctl -a /dev/sdX
# compare numbers
sudo smartctl -t long /dev/sdX
# this might take another hour or 2, check results periodically with
sudo smartctl -a /dev/sdX

Bundan sonra akıllı değerlerin tamam görünüyorsa diske güvenirim.

Her akıllı değerin ne anlama geldiğini bilmek için buraya bakmaya başlayabilirsiniz.

http://en.wikipedia.org/wiki/Self-Monitoring,_Analysis,_and_Reporting_Technology


Diğerlerinin bunun çok fazla şey yaptığını düşündüğü gibi, ancak sadece 10 diskim olduğu ve kesinlikle kötü bir şey yapamadığı için, tüm diskleri şimdi önerdiğiniz şekilde kontrol ediyorum. Kapsamlı cevabınız için teşekkür ederiz.
s1lv3r

23

Bunlar yeni diskler. Ya başarısız olacaklar ya da olmayacaklar. ZFS dosya sistemini kullanarak şimdiden çok büyük bir adımsınız, bu da baskın ve dosya sistemi sağlığınızla ilgili harika bilgiler veriyor ...

Diziyi kurmanın ötesinde hiçbir şey yapmam. Artıklığın noktası budur. Diğer listelenen yöntemlerle bir sürücü arızasına neden olamayacaksınız.


1
Bununla anlaştınız - bir dizi oluşturuyorsunuz. Veri koymaya başladığınızda bir sürücü arızalanırsa, farketmez, onu değiştirirsiniz ve dizi kendini iyileştirir. Sürücüleri kullanmadan önce problemler için test etmek, size gerçek hayatta başarısız olup olmayacağına dair doğru bir fikir vermeyecektir - gerçek hayat testlere benzemez!
Ashley

1
"gerçek hayat testlerden hoşlanmıyor" diyerek aynı fikirdeyim ama aynı zamanda badblock üzerinden iki sürücü hatası da buldum. Her ikisini de bir RAID 1, 5 veya 10'un aynı bölümüne koysam bütün RAID'i kaybederdim.
16'da

1
@ rjt muhtemelen değil. Kötü sektörler yeniden tahsis edilecek ve sürücüler aynı anda başarısız olma ihtimaline sahip olmayacaktı. Ayrıca, tüm sürücü arızaları medya değildir veya bozuk blokların bir sonucudur. Tahrik yatağı aşınırsa veya arızalanırsa ne olur?
ewwhite

Muhtemelen görev kritik verileri hakkında karar vermiyorum . Google Sabit Disk Çalışması, sürücülerin ilk 90 günde veya 3 yıl sonra yıprandığını söylüyor. badblocks düşük asılı meyvelerin ortadan kaldırılmasına yardımcı olur.
18'de

1
Elbette kritik görev verileri hakkında "muhtemelen" konusuna karar veriyorsunuz - Yapmasanız, ne kadar test yaptığınıza bakılmaksızın herhangi bir sürücüde veri depolayamazsınız.
voretaq7

10

Bonnie ++ 'ı test için kullanabilirsiniz. Mükemmel dosya sunucusu davranış modelini taklit edebilir.

Örneğin:

# bonnie++ -u nobody -d /home/tmp -n 100:150000:200:100 -x 300

Test kullanıcı 'hiç kimse' olarak çalışacak ve / * / home / tmp altındaki 100 otomatik dizine eklenmiş 100 * 1024 dosya oluşturacak / dosya başına 200 ila 150000 bayt oluşturacak / silecek. Ve test sayısı = 300. Dosya sayımı / büyüklüğü ve test tekrarlarının sayısı çevresinde oynayabilirsiniz.


9

Genellikle sadece tam bir RAID init yapıyorum ve uygun olduğunda, bu sırada dosya sistemini doldurmaya başlıyorum, her zaman ölü sürücülerden dolayı bir sorun olabileceğini biliyordum. Bu şekilde, zaten güvenilmez olan bazı testler için zaman kaybetmiyorum ve gerçek güçsüz sürücüleri hemen yakalayacağım. Ondan sonra, “bebek ölümleri” nedeniyle sürücü arızalarında hala yüksek bir şans olabilir, ancak bunu ortadan kaldırmanın pratik bir yolu yoktur.

Uygulamada, RAID'de kullandığım son birkaç diskten hiçbiri işlemin ilk yılında hiç sorun yaşamadı.


8

Bu tür testleri gün geçtikçe yapan bir şirket için çalışıyorum. Ve Evet, satın aldığımız her bir sabit diski test ediyoruz. İşlemimiz, diskleri HDAT2 adlı ücretsiz DOS tabanlı bir program aracılığıyla çalıştırmakla başlar. İndirmek ücretsiz. SMART'a ve sürücünün Windows ortamından erişilemeyen diğer özelliklerine erişebilir. Elde edilen sonuçlara bağlı olarak, onları birkaç farklı özel donanım hattından biriyle yöneteceğiz, fakat özünde sektörleri doğrulamak için çoğunlukla SMART kısa kendi kendine test, Uzun Test, güvenli bir silme ve bir Tüm Okuma yapıyorlar. Benim önerim, tam diskin güvenli bir şekilde silinmesini sağlamak, daha sonra hepsini okumak ve ardından bir SMART kısa otomatik testi yapmak olacaktır. Bu sıra, testlerinizin başında yapılırsa kısa bir öz sınama hiçbir şey bulamayabileceğinden, ancak diski tamamen yazıp okuduktan sonra bir şey alabileceği için önemlidir. Bu yardımcı olur umarım.


1
serverfault.com/a/501870/117546 bana en mantıklı geliyor, ama ben bir uzman değilim. Şirketiniz neden sabit sürücüleri test ediyor? En etkili testin aslında sürücüyü kullanacağını düşünüyorum.
emory

4

Üreticinin test paketini veya tüm diski taramak için SpinRite gibi bir şey kullanabilirsiniz. SMART değerlerine bakmak, kötü sektörleri ve diğer yaşlılık / başarısızlık işaretlerini aramak da iyi bir fikirdir .


3

Gerçekten test etmek istiyorsanız, badblocksyazma testini kullanın . Veri desenlerini diske yazacak ve kontrol etmek için onları okuyacaktır. Bu sırada diski biraz zorlar. Bence, başarılı bir şekilde çalışırsa, diske güvenebilirsiniz.

Ancak ZFS ve iyi bir yedekleme yeterli olduğunu düşünüyorum.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.