Yalnızca 1 sabit disk arızalanırsa RAID 4 disk kurulumu çökebilir mi? [kapalı]


9

Ben bir web geliştiricisiyim. Donanım konusunda fazla deneyimim yok. Bu nedenle yönetilen sunucular kullanıyorum.

Bu sabah, kurulumumuzdaki sürücülerden biri başarısız oldu. Ancak sitenin tamamı kapandı. Web sunucuma ne olduğunu sordum ve sabit diskin RAID denetleyicisinin düzgün çalışamayacağı şekilde başarısız olduğunu söyledi. Dizi RAID 4 olarak ayarlandı.

Bunu daha önce hiç gördünüz mü? Mümkün mü?

Bu adamlarla ilgili yardımlarınız için teşekkürler. Benim web barındırma bana dürüst olup olmadığını bilmek gerekir.


Bir Dizideki birden fazla disk ölürse, RAID başarısız olur (ancak RAID kurulumuna bağlıdır).
Rhys Evans

Kısa hikaye, sağlayıcınız bir ****** olduğunu ve ucuz tarafında çalışır. Bir müşteri, altyapısının hataya dayanıklı olmadığı konusunda uyarıldıkça, arızaları sürdüğünüzde bu mükemmel bir şekilde kabul edilebilir.
Luke404

Lütfen soruyu baskın türüyle güncelleyin (örn. Baskın 0,1,4,5,6 vb.).
Trevor Boyd Smith

Yanıtlar:


22

Sağlayıcınızın RAID'de kullanılması amaçlanmayan Sabit Diskleri kullanması daha olasıdır. Normal tüketici SATA sürücüleri bu kategoriye girer.

Muhtemel sorun, sürücünün Düzeltilemez Okuma Hataları (URE) yaşamaya başlamasıdır. Bu bir tüketici diskinde gerçekleştiğinde, sürücü orada oturur ve pes etene kadar okuma işlemini (genellikle 30-60 saniye) tekrar dener. RAID, sürücünün hatayı (30-60) saniye bildirmesini bekleyecektir. Bu nedenle, birkaç sektör için basit bir istek, sunucunun durmasına neden olabilirken, başarısız sürücü bu yeniden deneme işlemlerini gerçekleştirir.

RAID Dizileri için tasarlanan sürücülerde ya Zaman Sınırlı Hata Kurtarma (SATA sürücüler için) vardır. TLER arızaları kontrolörlere hızlı bir şekilde rapor eder, böylece kontrolör bu tür arızalara akıllıca yanıt verebilir (çoğunlukla akıllıca; umarım). SCSI (SAS da) biraz farklı çalışır. SCSI komut seti, denetleyicinin sürücüler üzerinde çeşitli kurtarma çabası sınırları belirlemesini sağlar (MOD SEÇİMİ: RW HATASI KURTARMA). Bir RAID denetleyicisi sürücüleri hızlı bir şekilde başarısız olacak şekilde ayarlamalıdır, daha sonra denetleyici sürücünün TUR komutuyla düzgün çalıştığını düşünüp düşünmediğini test edebilir, bir kontrol koşulu varsa sürücüyü diziden çıkarabilir.


İyi açıklama.
sbrattla

11

Evet, bu, dizinin başarısızlıktan kurtulması gerektiğini düşündüğünüz senaryolarda bile mümkündür.

Bir dizinin neden başarısız olduğuna dair bazı olasılıklar:

  • RAID modu tarafından sağlanamayacağından daha fazla sürücü başarısız oldu. Örneğin:
    • RAID 0 (şeritleme) herhangi bir sürücü arızasından kurtulamaz.
    • RAID 1, 1 sürücü dışındaki tüm arızalarda hayatta kalabilir.
    • RAID 4/5, 1 sürücü arızasından kurtulabilir.
    • RAID 6 2 sürücü arızasından kurtulabilir.
    • RAID 10, hangi sürücülerin arızalandığına bağlı olarak sürücülerin% 50'sine varan arızalarda hayatta kalabilir.
  • RAID yazılımında veya denetleyici ürün yazılımında bir hata.
  • Kullanıcı hatası.
    • Birisi çok fazla sürücü çekti.
    • Birisi bir sürücüyü çekti ve hiç değiştirmedi ve daha sonra başka bir sürücü başarısız oldu.
    • Dizi izlenemedi ve hayatta kalabileceğinden daha fazla sürücünün arızalanmasına izin verildi.
  • Tüketici sınıfı sürücülere sahip ucuz kontrol cihazlarının, başka türlü sağlanabilir senaryolarda bile başarısız olduğu bilinmektedir.
    • Tüketici seviyesi güdüsü, iyi bir okunana kadar kötü bir sektörü neredeyse süresiz olarak okumaya çalışacaktır. Ucuz bir denetleyici, böyle bir sürücünün bir sonuç döndürmesi için neredeyse süresiz olarak bekler. Bekleme o kadar uzun olabilir ki işletim sistemi pes eder. Sonra yeniden başlatma sırasında sürücüler denetleyiciye yeterince hızlı yanıt vermez ve dizinin başarısız olduğu varsayılır.
    • Öte yandan, kurumsal düzeyde bir sürücü hızla vazgeçerek denetleyicinin verileri başka bir sürücüden almasına izin verir. Ayrıca, iyi bir denetleyici, yanıt vermemek ve devam etmek için çok uzun süren bir sürücüyü işaretler.

1
RAID 1 , dizideki sürücülerden biri dışındaki herkesin ölümünden hayatta kalmalıdır . Kabul edilirse, çoğu insan muhtemelen iki sürücülü RAID 1 kurulumları çalıştırır, bu da sadece tek bir sürücünün ölümünden kurtulabileceği anlamına gelir, ancak bu RAID 1'in doğasında değildir
47'de CVn

İlginç bir RAID 10 1 disk başarısız olursa, sadece bir disk kırılırsa hayatta kalamaz çünkü başka bir diski kırmak gerekir :-) Bence yazı düzenlemek gerekir.
FLY

@ MichaelKjörling iyi bir nokta. Yazımı düzenledim.
longneck

@FLY haklısın, ben bu noktadan parladım. düzenlendi.
longneck

RAID4, RAID3 olmalıdır. RAID3, eşlikli bayt şeritlemesidir; RAID4, AFAIK'ın asla uygulanmadığı çok sayıda sürücüye ihtiyaç duyan bir ECC uygulamasıydı.
Dan Is Fiddling By Firelight

8

Bir RAID 0 uygulamasıysa, kesinlikle tek bir sürücü başarısız olduğunda diziyi ve onunla birlikte tüm verileri kaybedersiniz.


Bu bir RAID 4 uygulaması
Steve Rodrigue

11
hahaha - beni neredeyse orada tutuyordun, gerçekten nedir?
Chopper3

3
@ Chopper3 NetApp RAID4 kullanır. Bu yüzden tamamen duyulmamış değil, ama bana bir kıkırdama da verdi. Belki de ev sahibinin bir NetApp Filer veya başka bir şeyleri olduğunu söylemenin yolu budur.
HopelessN00b

1
@SteveRodrigue RAID 4 olduğundan emin misiniz ?
MDMarra

1
Gerçekten RAID4 ise ve yalnızca 1 sürücü başarısız olursa, en azından prensipte yeni bir sürücü kurmak ve diziyi yeniden oluşturmak mümkün olmalıdır. Belki de web barındırma, bunu yapmaya çalışırken kalan sürücülerden biri başarısız anlamına geliyordu?
user3490 26:12

2

Bir disk kötüleştiğinde veya olası bir arızayı bildirmeye başladığında yazılım hatalarının tüm RAID'i aldığını gördüm. Maalesef, size işaret edecek özel bir şeyim yok, ama evet, olabilir. RAID spesifikasyonunun bir parçası olarak değil, elbette, kesinlikle bir hata.


1

Evet mümkün. O değil sözde gerçekleşmesi, ama kesinlikle yapamam. URE'leri (Kurtarılamaz Okuma Hatası) ve denetleyici hatalarını ve ürün yazılımı hatalarını ve benzerlerini girin.

Ek bilgi olmadan (ana makineniz muhtemelen size vermez), kesinlikle öyle ya da böyle söylemek mümkün değildir, ancak çok sayıda RAID dizisi ile çalışan herkes, bir dizinin tamamlandığında kaybolduğu veya çöktüğü deneyimlere sahipti olmamalı.

(Ve bu arada, RAID4 çok yaygın olarak kullanılan RAID seviyesi değil, ama gereken herhangi bir sürücünün kaybını dayanacak . Mu Fakat her zaman olacaktır öyle demek.)


1

Mekaniklerin başarısız olduğu, ancak iletişim arayüzünü oluşturan elektroniklerin başarısız olduğu birçok HDD hatası yaşadım. Küçük boyutları nedeniyle, birçok elektronik bileşen küçük elektrik düzensizliklerine bile çok duyarlıdır (bu, yakındaki büyük A / C motorları açık / kapalı vb. Olduğunda ve güç kaynağı biraz ucuz tarafta olduğunda olabilir).

Sürücünün dahili güç dönüştürücüleri veya kapasitörleri (enerji depolama tamponları), HDD'nin harici konektörlerinde üretilen elektrik sinyallerini yaktığında spesifikasyonların dışına çıkabilir ve hareket eder. Sürücü denetleyiciye bakır tellerle bağlandığından ve genellikle sunucularda birçok sürücü, kurulumu kolaylaştırmak ve dağınıklığı azaltmak için bir kablo bağlantısını paylaşır, bu, herhangi bir sayıdaki bitişik bileşeni kolayca bozabilir veya kalıcı olarak yok edebilir.

Bu arada fiyatlandırma ile çok az ilgisi var. Pahalı kontrolörlerin ve sürücülerin, anormal koşullara daha toleranslı olan veya daha iyi korumaya sahip parçalar kullanabileceği ve bütçe bileşenleri ile standart altı parçalar elde etme olasılığınızın daha yüksek olduğu doğrudur. Ama düzenli olarak 50 dolarlık sürücüde ve 500 dolarlık sürücüde özdeş kapasitörler buldum. Hatalı bir HDD, güç kaynağından SATA konektörüne doğrudan 12 Volt yönlendirirse, bir şey kısa devre yapmışsa, fiyat etiketinin kaç rakamı olursa olsun RAID denetleyiciniz kızartılır.

Genellikle olan bu değil, ama kesinlikle benim deneyimimde duyulmamış değil.


"genellikle sunucularda birçok sürücü kablo bağlantısını paylaşır" Modern SAS veya SATA ortamlarında değil. Senaryonuzun burada gerçekleşmesi pek astronomik bir ihtimal değil; Bir sürücünün elektronik parçalarının öldüğünü ve diğer bileşenleri aldığını hiç duymadığımı sanmıyorum. 12v kesinlikle bir SATA veya SAS denetleyicisini kızartırken, mantık bileşenleri herhangi bir şekilde 12v'ye çok nadiren bağlanır, çünkü voltajı 12'den 3,3 veya daha düşük bir değere düşürmek 5v veya 3,3v kaynaklarına kıyasla çok karmaşıktır. Bu tür bir şeyin başı nerede olabileceğini merak ediyorum; eğer paylaşmak istiyorsan?
Chris S

1

Evet, sanırım tüm baskınlar tek bir sürücü arızasından sonra başarısız olabilir. İlk başarısız sürücü denetleyici tarafından çevrimdışı duruma getirilir ve baskın yine de iyi çalışır. Ancak arızalı sürücü değiştirildiğinde, denetleyici baskını yeniden oluşturmaya başlar. Kalan diğer sürücülerden birinde gizli bir keşfedilmemiş okuma sorunu varsa, başarısız sürücünün yeniden oluşturulması, baskının tekrar yapılmasına neden olan (sürücüyü yeniden oluştururken okuma sorunları keşfedildiğinde) daha fazla sürücünün çevrimdışı olmasına neden olabilir başarısız.


Bu nedenle RAID dizilerinin okuma veya yazma sorunlarını bulmak için düzenli olarak silinmesi gerekir.
Chris S
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.