RAID yeniden oluşturma sırasında kurtarılamaz okuma hatası olasılığını hesaplayan formül


12

Farklı RAID sistemlerinin güvenilirliğini tüketici (URE / bit = 1e-14) veya kurumsal (URE / bit = 1e-15) sürücülerle karşılaştırmak istiyorum. Yeniden oluşturma başarı olasılığına sahip formül (daha sonra dikkate alacağım mekanik sorunları göz ardı) basit:

error_probability = 1 - (1-per_bit_error_rate) ^ bit_read

Hatırlanması gereken önemli olan, bunun en az bir URE'ye sahip olma olasılığıdır, sadece bir tane değil.

Diyelim ki 6 TB kullanılabilir alan istiyoruz. Biz ile alabilirsiniz:

  • Her biri 6 TB'lık 1 + 1 diskli RAID1. Yeniden oluşturma sırasında 6TB'lik 1 diski okuruz ve risk şöyledir: 1- (1-1e-14) ^ (6e12 * 8) = tüketici için% 38 veya kurumsal sürücüler için% 4.7.

  • Her biri 3 TB'lık 2 + 2 diskli RAID10. Yeniden oluşturma sırasında yalnızca 1 TB 3BB'yi (başarısız olanla eşleştirilen!) Okuruz ve risk daha düşüktür: 1- (1-1e-14) ^ (3e12 * 8) = tüketici için% 21 veya kurumsal sürücüler.

  • Her biri 3 TB'lık 2 + 1 diskli RAID5 / RAID Z1. Yeniden oluşturma sırasında her biri 3 TB'lık 2 disk okuruz ve risk şu şekildedir: 1- (1-1e-14) ^ (2 * 3e12 * 8) = tüketici için% 38 veya% 4.7 veya kurumsal sürücüler.

  • Her biri 2 TB'lık 3 + 1 diskli RAID5 / RAID Z1 (genellikle Synologys gibi SOHO ürünlerinin kullanıcıları tarafından kullanılır). Yeniden oluşturma sırasında her biri 2 TB'lık 3 disk okuruz ve risk şöyledir: 1- (1-1e-14) ^ (3 * 2e12 * 8) = tüketici için% 38 veya% 4.7 veya kurumsal sürücüler.

Tek disk toleransı için hatayı hesaplamak kolaydır, birden fazla disk hatasına (RAID6 / Z2, RAIDZ3) toleranslı sistemlerle olasılığı hesaplamak daha zordur.

Yeniden oluşturma için yalnızca ilk disk kullanılırsa ve ikincisi baştan veya bir URE durumunda tekrar okunursa, hata olasılığı karekök üzerinde hesaplanan disktir (tüketici için RAID5% 2,5, tüketici için% 4,5 RAID1 1 + 2). Bununla birlikte, sanırım (en azından tam sağlama toplamı olan ZFS'de!) İkinci eşlik / kullanılabilir diskin yalnızca gerektiğinde okunduğunu, yani sadece birkaç sektörün gerekli olduğunu düşünüyorum: ilk diskte kaç tane URE olabilir? çok değil, aksi takdirde tek diskli tolerans sistemleri için hata olasılığı, hesapladığımdan daha fazla fırlayabilir.

Doğruysam, ikinci eşlik diski riski neredeyse son derece düşük değerlere düşürür.

Soru bir yana, üreticilerin pazarlama nedenleriyle tüketici sınıfı diskler için URE olasılığını arttırdıklarını (daha fazla kurumsal sınıf sürücü sattığını) akılda tutmak önemlidir, bu nedenle tüketici sınıfı HDD'lerin bile 1E-15 URE / bit okumaya ulaşması beklenmektedir. .

Bazı veriler: http://www.high-rely.com/hr_66/blog/why-raid-5-stops-working-in-2009-not/

Bu nedenle parantez içinde verdiğim değerler (kurumsal sürücüler) gerçekçi bir şekilde tüketici sürücüleri için de geçerlidir. Ve gerçek kurumsal disklerin güvenilirliği daha da yüksektir (URE / bit = 1e-16).

Mekanik arıza olasılığı ile ilgili olarak, disk sayısı ile orantılıdır ve yeniden inşa etmek için gereken zamanla orantılıdır.


1
Merhaba Olaf! Bildiğim kadarıyla, bu soru bilgisayar donanımına Matematik için iyi bir uyum sağlamak için biraz fazla özel görünüyor , ancak sorularınızı sormak isteyip istemediklerini meta sitelerine sorabilirsiniz. Bu durumda, tekrar işaretleyin ve sizin için taşımaktan mutluluk duyarız!
slhck

2
3 sürücülü RAID5 için% 38 URE olasılığına tam olarak nasıl ulaşıyorsunuz? URE = 10 ^ 14, HDD = 3,5 * 1024 ^ 4 bayt kullanarak, yeniden inşa ederken sürücü başına% 3,8 URE ve% 11,1 URE alırım. Yani: 100 * (1- (1- (hdd / ure)) ^ 3). Sanırım sayılarınız biraz kapalı (pratik arıza oranı üreticiler tarafından belirtilenden daha yüksek olsa da). Hata oranları, sürücü başına okunan bit başına ve okunan bit başına verildiğinden, ^ bit_read kullandığınız bölümün yanlış olduğunu düşünüyorum. Belki de bu olasılıkları nasıl hesapladığınız hakkında daha fazla bilgi verebilir misiniz? İlginç soru için +1. cs.cmu.edu/~bianca/fast07.pdf
Ярослав Рахматуллин

Eklenen bilgiler ve kontrol edilen hesaplamalar.
FarO

Yanıtlar:



2

Bu soruyu ele almaya çalışan birçok site ve makale var.

Bu site RAID 0, 5, 10/50/60 seviyeleri için hesap makinelerine sahiptir.

RAID düzeylerindeki wikipedia makalesinde RAID 0 ve RAID 1 hata oranları ile ilgili bölümler bulunur.

RAID 0 :

Belirli bir RAID 0 kümesinin güvenilirliği, her diskin ortalama güvenilirliğine, kümedeki disk sayısına bölünerek eşittir:

Yani, güvenilirlik (arızaya kadar geçen ortalama süre (MTTF) veya arızalar arasındaki ortalama süre (MTBF) ile ölçüldüğü gibi)) üye sayısı ile kabaca ters orantılıdır - bu nedenle iki disk kümesi kabaca tek bir disk kadar yarı güvenilirdir. Diskin üç yıl içinde başarısız olma olasılığı% 5 ise, iki disk dizisinde bu olasılık {P} (en az bir başarısız olur) = 1 - {P} (ikisi de başarısız olur) = 1 - (1 - 0.05) ^ 2 = 0.0975 =% 9.75.

RAID 1 :

Basitleştirilmiş bir örnek olarak, her biri diskin üç yıl içinde arızalanma olasılığı% 5 olan bir disk sürücüsünün iki özdeş modeline sahip bir RAID 1'i düşünün. Arızaların istatistiksel olarak bağımsız olması şartıyla, üç yıllık kullanım ömrü boyunca her iki diskin arızalanma olasılığı% 0.25'dir. Bu nedenle, diziye hiçbir şey yapılmazsa, üç yıllık bir süre içinde tüm verileri kaybetme olasılığı% 0.25'tir.



Ayrıca ben de dahil olmak üzere bu konuda çok sayıda blog makaleler bulduk bu bir sonuçta o bağımsız olmayabilir bir sistemde (RAID I) bize bağımsız sürücüler hatırlatır:

Saf teori, eğer sabit disk 1'in 1/1000 arızası olasılığı varsa ve disk 2 ise, o zaman her ikisinin de başarısız olma olasılığı 1 / 1.000.000'dir. Bu, başarısızlıkların istatistiksel olarak bağımsız olduğunu varsayar, ancak değildir. Arızalar ilişkisiz olmadıkça böyle olasılıkları çoğaltamazsınız. Yanlışlıkla bağımsızlık varsayımı, olasılıkın uygulanmasında yaygın bir hata, belki de en yaygın hatadır.

Joel Spolsky, en son StackOverflow podcast'inde bu soruna yorum yaptı. Bir şirket bir RAID oluşturduğunda, montaj hattından çıkan dört veya beş disk alabilirler. Bu disklerden birinin, 10.000 saatlik kullanımdan sonra başarısız olmasına neden olan hafif bir kusuru varsa, muhtemelen hepsi yapar. Bu sadece teorik bir olasılık değil. Şirketler aynı anda başarısız olan disk gruplarını gözlemlediler.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.