RAID-5: İki disk aynı anda başarısız oldu mu?


21

5 Seagate Barracuda 3 TB SATA disk içeren bir RAID-5 dizisine sahip CentOS çalıştıran bir Dell PowerEdge T410 sunucumuz var. Dün sistem çöktü (tam olarak nasıl bilmiyorum ve herhangi bir kütüğüm yok).

RAID denetleyici BIOS'unu başlattıktan sonra, 5 diskten diskin 1'in "eksik" ve disk 3'ün "bozulmuş" olarak etiketlendiğini gördüm. Diski 3 yedekledim ve diski 1 yeni bir sabit diskle değiştirdim (aynı boyutta). BIOS bunu tespit etti ve disk 1'i yeniden oluşturmaya başladı - ancak% 1 konumunda kaldı. Eğirme ilerlemesi göstergesi bütün gece tomurcuklanmadı; tamamen donmuş.

Burada benim seçeneklerim neler? Bazı profesyonel veri kurtarma hizmetlerini kullanmanın yanı sıra, yeniden yapılanmaya teşebbüs etmenin bir yolu var mı? İki sabit disk aynı anda nasıl böyle başarısız olabilir? Aşırı tesadüf görünüyor. Disk 1'in başarısız olması ve sonuç olarak disk 3 "senkronizasyondan çıkmış mı" olabilir? Öyleyse, onu tekrar "senkronizasyonda" almak için kullanabileceğim herhangi bir yardımcı program var mı?


20
Evet, büyük sata diskleri bunu yapma eğilimindedir. (3 TB'nin yeniden yapılandırılması, çift arızalara maruz kaldığınızda birkaç saat sürer). Bu yüzden bu bekleniyor ve bu tür bir konfigürasyon kullanarak RAID-5'in kesinlikle tavsiye edilmemesinin nedeni budur.
MichelZ

9
Aslında. İdeal bir dünyada sürücü başarısızlık oranları rastgele dağıtılır. Pratik olarak, bu gerçekleşmez - genellikle aynı gruptan satın alınırlar ve aynı strese maruz kalırlar; bu, hepsinin aynı anda hayatın sonunu vurmaya başladığı anlamına gelir. SATA disklerinde kurtarılamayan hata oranlarına bakmaya başlamadan önce bile, yükleme sırasında ani bir kayma kolayca birkaç "kenardan" öne geçebilir. Her neyse, korkarım ki kötü haber şu ki, çevrimiçi olarak bu sürücülerden birini bulamazsanız, yedekleri çıkarmanın zamanı geldi.
Sobrique


5
Şu anda pek işe yaramadığını biliyorum, ama sadece FYI - genel fikir birliği, 1TB'den büyük sürücüler için RAID6'yı kullanmaktır (en azından 7200 rpm'den bahsederken).
pauska

2
RAID 5 hataya dayanıklılık verir, ancak bu bir uzlaşma seçeneğidir - N + 1 esnekliğine sahipsiniz, ancak büyük sürücüleriniz varsa, ikinci bir hatanın oluşabileceği büyük bir pencereniz var. RAID-6, genellikle iyi olarak kabul edilen N + 2 hata toleransını verir (üçlü arıza oranları çok daha düşüktür). Bununla birlikte, daha pahalı disklerin arıza oranını da bulacaksınız (örneğin ucuz SATA sürücüleri değil)
Sobrique

Yanıtlar:


24

Kötü bir cevabı kabul ettikten sonra , benim bu düşüncelerim için çok özür dilerim (ki bu gibi dizileri çok kez kurtardım).

Sizin ikinci Arızalı disk muhtemelen küçük bir sorun, belki bir blok hatası vardır. Sebep budur, neden kötü raid5 firmware'inin kötü senkronizasyon aracının üzerine çarptığını.

Düşük seviyeli bir disk klonlama aracıyla (örneğin, gddrescue muhtemelen çok yararlıdır) sektör düzeyinde bir kopyayı kolayca yapabilirsiniz ve bu diski yeni diskiniz3 olarak kullanabilirsiniz. Bu durumda, diziniz küçük bir veri bozulmasıyla hayatta kaldı.

Üzgünüm, muhtemelen çok geç, çünkü ortodoksun özü bu durumda: "bir baskın 5'te birden fazla başarısızlık, işte kıyamet!"

Çok iyi, gereksiz baskınlar istiyorsanız, linux'taki yazılım baskınını kullanın. Örneğin, baskın superblock veri düzeni halka açık ve belgelenmiş ... Gerçekten, özür dilerim, bunun için başka bir sapkın görüş.


8
Bunun ayıp olduğu için utanç, aslında bazılarının aksine OP'nin karışıklığı düzeltmesine yardım etmeye çalışıyor. +1
Vality

3
@Vality, dağınıklığı çözmeye çalışmıyor, problemlerini genişletiyor. Bozuk blokların yandığı bir baskın (5), bütünlük kontrollerinden geçeceği, ancak düzenli olarak bozulacağı için acı çekmez. Ayrıca hangi verilerin bozuk olduğu hakkında hiçbir fikri olmazdı. Standart bir çözüm olacak bir bloğu sabitlemek kadar kolay olsaydı.
JamesRyan

4
@JamesRyan Daha sonra bazı sorunlara yol açacağına katılıyorum ve hatta burada temel sorunların olduğuna katılıyorum. Bununla birlikte, bazı işlevlerin nasıl geri alınabileceği konusunda geçerli bir çözüm sunar ve OP veri kurtarma uzmanlarından söz ederken, yalnızca verilerini geri almak için yedekleri olmadığını varsayabilirim. Sonunda, bu çözüm sadece bir düzeltmenin bir parçası olacaktı, bu yöntem sistemi yeniden başlattıktan sonra, muhtemelen dosya sistemini 5 yeni diske aktarmak ve daha sonra önemli bir şekilde yedeklemek isteyeceksiniz.
Vality,

1
“Kolayca bir blok kopyalama aracının sektör düzeyinde bir kopyasını çıkarabilirsiniz” Bu gerçekten yazmak istediğin şey miydi?
Arnaud Meuret

1
@MikeFurlender Donanımın daha hızlı olduğunu düşünüyorum, ancak tescilli ve dolayısıyla arızalanması durumunda tam olarak aynı kontrol cihazına sahip olmanız gerektiği için kırılgan. Yazılım RAID, donanımdan bağımsızdır. Btrfs ve zfs'ye bakınız.
Martin Ueding

38

Bir çift disk arızası var. Bu, verilerinizin gittiği ve bir yedekten geri yüklemeniz gerekeceği anlamına gelir. Bu nedenle büyük disklerde 5. baskın kullanmamamız gerekiyor. Baskınınızı ayarlamak istiyorsunuz, böylece her zaman iki büyük disk arızasına, özellikle de büyük ve yavaş disklere dayanabiliyorsunuz.


3
RAID5 ile iki sorun var. Bir: 3TB yeniden inşa süresi, yavaş bir SATA sürücüsü verildiğinde büyük olabilir, bu da bir bileşik arızası ihtimalinin yüksek olmasını sağlar. Diğeri kurtarılamayan bit hata oranıdır - çoğu SATA sürücüdeki teknik özellik sayfasında 1/10 ^ 14 vardır, bu da - yaklaşık - 12 TB veridir. 5 yolla, 3B RAID bu yeniden inşa gerektiğinde neredeyse kaçınılmaz hale gelir.
Sobrique

1
3TB 5 sürücü dizimde RAID5 kullanıyorum, ilk kopyalanan kopya olarak kullanmak için ikinci bir dizi almak üzereydim. Verileri kaybetmemin bu şekilde, aynı anda her iki dizide de başarısız olması için 1'den fazla disk gerekir (bu nedenle 4 diske ihtiyacım olur), ancak yine de bu kapasiteyi bu kadar büyük tutar. Bunu okuduğumda şimdi ikinci diziyi almak için o zaman dilimi adımını atabilirim.
Savaş

1
Muhtemelen diskinde sadece bir badblock vardır3. Profesyonel bir sistem yöneticisinin neden blok düzeyindeki kopya araçlarından hiç haber almadığını merak ediyorum.
peterh Monica

1
@Wardy, 6 baskın sana bunu vermez mi?
Basil

3
Çok yararlı bir cevap değil. Tabii, RAID 5'teki çift disk arızası durumunda, kurtarma şansı iyi değildir. Ancak RAID 5'teki çoğu çift disk arızası muhtemelen sadece hatalı bir diskin ve diğer disklerdeki düzeltilmemiş birkaç okuma hatası ile ilgilidir. Durum buysa, doğru araçlar göz önüne alındığında verilerin çoğunun kurtarılması hala mümkündür. Bu tür araçlara işaretçiler yardımcı olacaktır.
kasperd

37

Seçenekleriniz:

  1. Yedeklerden geri yükleme.
    • Sen yapmak sen yedekleri yok mu? RAID bir yedekleme değil.

  2. Profesyonel veri kurtarma
    • Çok pahalı ve garantili olmasa da, profesyonel bir kurtarma servisinin verilerinizi kurtarması mümkündür.

  3. Veri kaybınızı kabul etmek ve deneyimlerden öğrenmek.
    • Yorumlarda belirtildiği gibi, yeniden yapılanma sırasında dizinin başarısız olmasına neden olan ikili arıza olasılığı nedeniyle RAID 5 yapılandırması için büyük SATA diskleri önerilmez.
      • Eşlik RAID olması gerekiyorsa, RAID 6 daha iyidir ve bir dahaki sefere de sıcak yedek kullanın.
      • SAS diskleri, daha fazla güvenilirlik, esneklik ve URE'lere (düzeltilemez okuma hataları) neden olabilecek daha düşük kurtarılamaz bit hata oranları gibi çeşitli nedenlerle daha iyidir
    • Yukarıda belirtildiği gibi, RAID bir yedekleme değildir. Veriler önemliyse, yedeklendiğinden ve yedeklemelerinizin geri yüklenmediğinden emin olun.

1
5 diske sahipseniz (OP uyarınca) ve etkin bir yedek almaya kararlıysanız, kesinlikle RAID10'u RAID6 ... 'dan alırsınız.
jimbobmcgee

1
Eh, yeni başlayanlar için, 2 disk alanını kapatarak bir diski 'yedek' bırakmak için RAID 1 + 0'da 4 iş mili kullanacaksınız. İki başarısızlığa (en azından sağdaki iki) tahammül edebilirsiniz. RAID6 size 3 disk alanı verir ve iki hatayı da tolere edebilir (her ikisi de). RAID1 + 0, daha düşük yazma cezası ve daha iyi rastgele okuma performansı ile daha iyi bir performansa sahiptir.
Sobrique

2. nokta için. Veri Kurtarma. Verileri bir RAID5'ten profesyonel olarak kurtarmak, size 20 bin dolarlık bir işlemi kolaylaştırabilir. Dahası, OP yeniden oluşturma işleminin gece boyunca çalışmasına izin vererek, diski sıkıştırarak kurtarma işleminin daha zor ve hatta imkansız olmasına neden olabilir. Sadece vaktinden önce sana haber verdim. Tüm diskleri gönderdiğinizden emin olun.
OmnipotentEntity

4

Eşzamanlı başarısızlık, başkalarının vermiş olduğu nedenlerden dolayı olasıdır. Diğer olasılık, disklerden birinin bir süre önce başarısız olması ve aktif olarak kontrol etmemenizdir.

İzlemenizin derhal düşürülmüş modda çalışan bir RAID birimi alacağından emin olun. Belki bir seçenek elde edemediniz ancak bu şeyleri BIOS'tan öğrenmek zorunda kalmazsınız.


3
İhmal edilen izleme belirtmek için +1. Zaten "kritik" -> "başarısız" adımını değil, "normal" -> "kritik" adımını fark etmek önemlidir. Bu, diğer tüm yedeklemeler için de geçerlidir (yedek internet hattı, bodrumdaki bira, yedek lastik, ...).
Hagen von Eitzen,

2

"İki sabit disk nasıl aynı anda böyle başarısız olur?" tam olarak, bu yazıdan alıntı yapmak istiyorum :

Argümanın noktası budur. Disk sürücüleri büyüdükçe ve büyüdükçe (yaklaşık iki yılda iki katına çıktıkça), URE (kurtarılamayan okuma hatası) aynı oranda iyileşmedi. URE, Kurtarılamaz Bir Okuma Hatası oluşma sıklığını ölçer ve genellikle okunan bit başına hatalarla ölçülür. Örneğin, bir 1E-14 (10 ^ -14) URE oranı, istatistiki olarak, okunan her 1E14 bitte (1E14 bit = 1.25E13 bayt veya yaklaşık 12TB) bir kurtarılamaz okuma hatası oluşacağını belirtir.

...

Argüman, disk kapasiteleri arttıkça ve URE hızının aynı oranda düzelmediği, RAID5 yeniden kurulum başarısızlığının zaman içinde artacağıdır. İstatistiksel olarak, 2009'da, disk kapasitelerinin RAID5'i anlamlı bir dizi için kullanmayı anlamsız hale getirecek kadar büyüdüğünü gösteriyor.

Yani, RAID5 2009 yılında güvensiz oldu. RAID6 da yakında olacak. RAID1'e gelince, onları 3 diskten yapmaya başladım. 4 diskli RAID10 da tehlikeli.


3
Yine, RAID bir yedekleme alternatifi değildir, bu sadece mevcut verileri kullanılabilir tutmak için bir diskin değiştirilebileceği "tampon bölge" eklemekle ilgilidir. Diğer seçenek, aynı anda başarısız olmak için 2 diziyi gerektiren çoğaltmayı kullanmaktır.
Savaş

Şahsen, RAID'in yedek olmadığı mantığını sevmiyorum. Sözlük şöyle diyor: "gerekirse bir yedek olarak hizmet etmek üzere yedek tutulan bir kişi, plan, cihaz vb." Fazlalık miktarı yeterli değilse, yerine geçemez. RAID'in sağladığı fazlalığı önemsemiyorsanız, kullanmamayı da seçebilirsiniz. Disk dışı ve site dışı yedeklemelerin yerine geçmemesiyle ilgili olarak (elbette) aynı fikirdeyim.
Halfgaar

Öyleyse RAID şeritlerini fazlalık olmadan kullananlar hakkındaki düşüncelerin neler? Bu durumda, RAID dizisi tamamen geçerli bir performans avantajı elde etmek için kullanılıyor, ki bu tamamen geçerli bir kullanımdır IMO aklımda RAID 2 amaçlara hizmet eder 1. sürücüleri gruplandırarak hız sağlamak için veya n sürücüler, verilerin hala mevcut olduğundan emin olmakta başarısız olur.
Savaş

RAID uygulayan herkes, ihtiyaçlarına, hızına, güvenilirliğine veya 2 kombinasyonuna bağlı olarak kullanmak istedikleri RAID türünü seçer, ancak yine de RAID'i herhangi bir yedekleme çözümü yapmaz.
Savaş

1
İnsanlar RAID'in yedek olmadığını söylerken, kullanılabilirlik hakkında konuşmuyorlar. Bence sadece kelimelerle oynuyorsun. :)
gparent

2

İş parçacığı eski ama okuyorsanız, bir sürücünün baskın bir dizide başarısız olduğunu anlayın, sürücülerin yaşını kontrol edin. Baskın dizide birkaç diskiniz varsa ve bunlar 4-5 yaşın üzerindeyse, başka bir sürücünün başarısız olma ihtimali yüksektir. *** Devam etmeden önce bir GÖRÜNTÜ veya Yedekleme ** yapın. Bir yedeğiniz olduğunu düşünüyorsanız, onu okuyup geri yükleyebileceğinizden emin olmak için test edin.

Sebebi, yıllarca süren normal aşınma süreleridir ve kalan sürücüleri saatlerce ve saatlerce tam hızda döndürürken yırtıyor olmanızdır. 6 yaşındaki sürücülerin sayısı arttıkça, başka bir sürücünün deforme olma olasılığı artar. RAID5 ise ve diziyi patlattıysanız, yedeklemeniz harika, ancak 2TB'lik bir diskte, baskın denetleyicisinin ve diğer donanımın türüne bağlı olarak 8 - 36 saat sürebilir.

Tüm sürücüler eskiyse, tüm baskın kovanını üretim sunucularında düzenli olarak değiştiririz. Neden bir sürücüyü değiştirmekle zaman kaybettikten sonra bir gün, hafta, ay veya iki gün içinde bir sonrakinin başarısız olmasına kadar bekleyin. Sürücüler kadar neşe, sadece aşağı zaman değerinde değil.


1

Genellikle, saygın bir satıcıdan çok fazla sürücü satın alırken, yukarıda belirtilen nedenlerden dolayı önemli olan sürücülerden farklı partilerden gelmelerini isteyebilirsiniz. Daha sonra, bu tam olarak RAID 1 + 0'ın varlığının nedenidir. RAID 1 + 0'da 6 sürücü kullanmış olsaydınız, birimin yeniden oluşturulmasının gerekli olmadığı durumlarda anında yedeklemeli 9 TB veriye sahip olacaktınız.


Sürücüleri farklı gruplardan kullanma kısmının kentsel efsaneden başka bir şey olmadığını gösteren kanıtlar nerededir? Ayrıca, RAID 1, yeniden yapılanma sırasında okunamayan sektörlere girmeye karşı sihirli bir şekilde koruma sağlamaz. Buna karşı koruma istiyorsanız, ya RAID 6 ya da 3 aynalı RAID 1 ile gidin (biraz pahalı).
kasperd


1

Denetleyiciniz Linux'ta dmraid (örneğin, burada ) tarafından tanınırsa , kullanabilirsiniz , arızalı diski yenisine kurtarmak için ddrescue uygulamasını, donanım denetleyiciniz yerine diziyi oluşturmak için dmraid komutunu kullanabilirsiniz.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.