Ortalama Hata Süresi (MTTF): Disk üreticileri bunu gönderdiğinde, sayılarını nasıl yorumlamalısınız?

10

Ortalama Arıza Süresi (MTTF) genellikle saat cinsinden verilir ve bazı hesaplamalar yaparak, bir diskin ancak çok sayıda yıl geçtikten sonra başarısız olması gerekir .

Disklerin ondan daha sık onarılması gerektiği anlaşılıyor. Bunun neden böyle olduğunu bilen var mı?

Bu metrikte balık gibi bir şey olduğunu anladım. Burada yanlış bir şey mi yorumluyorum?

— Kaitlyn Mcmordie
kaynak

14

İlki:

MTTF = Ortalama Hata Süresi
MTTR = Onarım için Ortalama Süre
MTBF = Hatalar Arasındaki Ortalama Süre = MTTF + MTTR

MTBF genellikle MTTF'ye daha fazla veya daha az eşittir, çünkü onarım bir saat sürebilir ve MTTF on binlerce saat olabilir. Ancak, MTBF de genellikle uygulanamaz, çünkü arızalı ürünler tamir edilmez, ancak basitçe değiştirilir, çünkü onarım, değiştirilmekten daha pahalıdır.

MTTF hesaplaması, her bir parçanın başarısız olma olasılığını hesaplamayı içeren karmaşık bir istatistiksel yöntemdir. Ve insanların bazen varsaydığı gibi doğrusal bir şey değildir. 1000 000 saatlik bir MTTF'niz varsa, bu 1000 cihazda 1000 saat sonra bir arıza olacağı veya 1 saat sonra 1000 000 cihazda bir hata alacağınız anlamına gelmez.
Birçok elektronik cihaz "küvet eğrisini" takip eder ,

resim açıklamasını buraya girin

erken dönemde pek çok başarısızlığın olduğu yerde, o zaman neredeyse hiç başarısızlıkla uzun süre kalmaz ve ömrünün sonuna doğru başarısızlıkların sayısı tekrar artar. Sabit disklerde, daha doğrusal bir arıza eğrisine sahip bazı mekanik parçalar da vardır; bu yavaş yavaş 1. günden itibaren yükselir.

Üretici, örneğin 1000 000 saat MTTF (çoğunlukla POH veya Açılış Saatleri) diyorsa , ortalama olarak sürücünün> 100 yıl sürmesi gerektiği anlamına gelir . Bazı sürücüler daha uzun süre dayanır, bazıları daha önce arızalanır. Bu nedenle 1000 000 saate rağmen 1000 saatten sonra arıza olması mükemmel bir şekilde mümkündür. Bir zamanlar bir hafta içinde başarısız bir sürücü vardı ve sonra küvet eğrisi geri düşünmek zorunda. Yeni sürücü> 50k saatten fazla mutlu bir şekilde dönüyor.

— stevenvh
kaynak

3

Dikkate değer birkaç şey, erken arızaların genellikle yanık olarak adlandırılması olabilir. Erken arızaları çok daha düşük olan üreticiler genellikle cihazları yanma aşamalarında çalıştırırlar. Ayrıca, saf elektronikler bir aşınma süresi ve sadece bir yanma sergilemez.

— Kortuk

1

MTTF (veya MTBF) hesaplarken, hataları modellemek için genellikle yalnızca tek bir dağıtım kullandığınızı unutmayın. Bu nedenle hesaplama ya "bebek ipotekliği", "normal yaşam" ya da "yaşam sonu yıpranması" dağılımına dayanır. Temel dağıtımınız olarak Weibull kullanıyorsanız, bu üç dağılımı ayıran tek şey Weibull şekil parametresidir. Arızaların "normal yaşam" dağılımından çıkacağı tek durum, zamanın başarısızlık oranı üzerinde hiçbir etkisinin olmayacağı ve bu nedenle dağılımın üstel olacağı durumdur.

2

MTTF, öncelikle cihazdan veya widget'tan ne tür bir yaşam beklemeniz gerektiğinin bir göstergesi olarak kullanışlıdır. Belli nedenlerle, cihazın arızalanma tarihinin kesin bir tahmini olamaz. Bu sadece mevcut verilerin istatistiksel analizine dayanan bir tahmindir ve sadece bu şekilde düşünülmelidir. Bütçeleme (burada maliyetleri ne kadar amortisman veya amortisman gerekir) ve planlama (bir sonrakini almak zorunda kalmadan widget'ın ne kadar süre çalışmasını bekleyebiliriz) için kullanışlıdır.

— music2my

Öncelikle, tam olarak ne olduğunu bir "disk arızası"?

— Kaitlyn Mcmordie

2

@ Kaitlyn - Sanırım kötü sektörlerden bahsediyorsun. Disk arızasını artık sürücüden okuyamayacağınız veya sürücüye yazamayacağınız zaman söyleyebilirim. Genellikle bir kafa çarpması gibi mekanik bir hata. Bu genellikle hala çok iyi sektörleriniz olduğunda olur.

— stevenvh

4

Bir ekipmanın MTBF değeri 1.000.000 saatlik bir kullanıma sahipse, bu, herhangi bir ekipmanın 1.000.000 saat sürmesi beklendiği anlamına gelmez. Daha doğrusu, kabaca, nominal hizmet ömürleri dahilinde 1.000.000 adet ekipmanın her biri bir saat boyunca veya 100.000 adet on saat (ancak yine de nominal ömür boyu) veya bir dakika boyunca 60.000.000 adet çalıştırılırsa anlamına gelir. partide kabaca bir başarısızlık olacak. Nominal servis ömrünün MTBF'ye tamamen dik olduğunu unutmayın. Aşağıdaki iki widget türünü göz önünde bulundurun:

Her widget, yaşından bağımsız olarak, her saat% 0.1 başarısız olma şansına sahiptir.
Her milyar widget'tan bir tanesi hariç hepsi 61 dakika boyunca çalışacak ve sonra ölecek; birinin 30 dakika sonra öleceğini; widget'ların hizmet ömrü 60 dakikadır.

İlk widget türünün ortalama ömrü yaklaşık 1000 saat ve ayrıca MTBF'si yaklaşık 1000 saat olacaktır. İkincisi ortalama 61 dakikalık bir ömre sahip olacak, ancak hizmet ömrü içinde 1.000.000.000 saatlik bir MTBF'ye sahip olacaktır. İkinci cihazın, beklenen kullanım ömrünün neredeyse milyar katı kadar bir MTBF'ye sahip olduğunu söylemek garip gelse de, MTBF'nin anlamsız bir rakam olduğu söylenemez.

Birinin, bir saat boyunca 1.000.000 cihazın mükemmel bir şekilde çalışmasını gerektiren bir deney yapacağını varsayalım, bundan sonra hepsi hurdaya ayrılacak. Herhangi bir cihaz arızalanırsa, denemenin tamamı bozulur. Bu daha yararlı olacaktır - ortalama 1.000 saat sürecek, ancak sadece 1000 saatlik MTBF'ye sahip bir cihaz veya en fazla 61 dakika sürecek, ancak bir milyar başarısız olma şansına sahip olan bir cihaz bu işaretle tanışmak mı?

— SuperCat
kaynak

Sonuç olarak, 10 ^ 6 saatlik MTBF'yi herhangi bir diskin "ortalama kullanım ömrü" olarak değil, birden çok diskin kullanım ömrü ile ilgili bir önlem olarak görmeliyiz.

— Kaitlyn Mcmordie

@Kaitlyn Mcmordie: "Yaşam boyu" terimi gerçekten geçerli değil; ölüm başarısızlık anlamına gelmez, bunun tersi de geçerlidir. Bir depolama cihazının üreticisi, veri kaybını önlemek için izlenmesi gereken prosedürleri belirleyebilir; bu prosedürler, tüm verilerin yeni bir cihaza "arızaya yakın" göstergesi veren herhangi bir cihazdan taşınmasını içerebilir (veriler kopyalandıktan sonra eski cihaz "ölü" olarak kabul edilir). Böyle bir olaydan veri kaybı olmazsa, bu bir arıza değildir. Bununla birlikte, herhangi bir cihazdan kaynaklanan veri kaybı, görünüşte sağlıklı bir cihaz olsa bile, bir başarısızlıktır. Ömrü ile ilgisi yok.

— supercat

2

StevenVh'ın cevabına ek olarak: Bilinen disk üreticilerinin hepsi, elektronik bileşen üreticileri gibi yeni cihazların çalışmalarını gerçekleştiriyor. Sabit disklerde, sadece genel bir MTBF ve MTTF değil, aynı zamanda disk blokları için bireysel arıza istatistikleri de vardır. Diğer bir deyişle: Eğirme işleminin bazı kısımları, diskteki "tabağı" başarısız olurken, çoğunluğu hala okur / yazar. Sözde "bozuk sektörler" tespit edilebilir ve daha sonra sürücünün içindeki bellenim tarafından eşlenebilir.

Bugün tüm sürücüler yedekte, daha sonra kusur sektörleri yerine kullanılabilecek ek sektörler içermektedir. Bu sadece üretici tarafından bir önlemdir: Bunu yapmazlarsa, diski belirtilen kapasitede satamazlardı. Rezerv olarak gizli sektörlerin% x'ini eklerse, maliyeti <% x oranında arttırırlar, ancak daha yüksek bir toplam üretim verimi elde ederler.

Günümüzde diskler, uygun yazılımlarla da okunabilen bir dizi kötü sektörü tutmaktadır. Bu ve diğer disk sağlığı parametrelerine (örn. Sıcaklık) SMART değerleri denir .

Şimdi, üretici sürücünün yanma testini gerçekleştirdiğinde ve bazı sektörlerde neredeyse bir hata var ve sürücünün dahili bellenimi tarafından yeniden eşleştirildikten sonra, "Kötü Sektör Sayısı" SMART parametresi 0 olarak ayarlandı. sürücü müşterilere teslim edilir.

Genellikle, yanma işleminden sonra, daha önce bahsedilen küvet eğrisinin başlangıcı artık müşteri tarafından görülmez. Şanslıyız ve sadece zaman içinde başarısızlık olasılığının arttığını görüyoruz.

Dolayısıyla, üretici tarafından belirtilen MTTF'ye bakarsanız, yapmak isteyebileceğiniz herhangi bir arıza modellemesi için küvet eğrisinin başlangıcını göz ardı edebilirsiniz.

— cfi
kaynak

Teşekkür ederim. Btw, "sunucu hatası" teriminin ne anlama geldiğine dair bir fikriniz var mı?

— Kaitlyn Mcmordie

Açık olan anlam, başkalarına hizmet sağlayan bir bilgisayarın karşılaştığı bir hatadır. Ve inanıyorum ki, serverfault.com ;-) hakkında soru sormanız gereken zaman , SSS'de

— cfi

-2

Bunu pazarlama olarak yorumlamalısınız. Aslında tam MTBF'yi (arızalar arasındaki ortalama süre) bilmiyorlar, bu yüzden bunu tahmin etmek için çeşitli hileler kullanıyorlar ve maliyetlerini haklı çıkarmak için 'kurumsal' sürücüler için daha yüksek rakamlar gösteriyorlar.

Gerçekte, HDD üreticilerinin garanti bittikten hemen sonra HDD'lerinin arızalanması kârlıdır.

Bir komplo teorisi olarak, Seagate 7200.11'in kitlesel başarısızlığının, garanti süresi dolmadan disklerin arızalanmasına neden olan 'programlanmış ölüm' uygulamasında bir hata olduğuna inanıyorum, bu yüzden bunu ürün yazılımı güncellemesiyle 'düzeltmeleri' gerekiyordu.

— BarsMonster
kaynak

Bu komplo argümanını almıyorum.

1

@Federico Russo: Neden? Sabit disk sürücülerinin belirli saatlerden sonra kurtarılamaz durumda kilitlenmesine neden olan normal bir geliştirici hatası olduğunu mu düşünüyorsunuz?

— BarsMonster

2

-1: İstatistiksel analiz MTBF sayılarını belirlemek için kullanılır ve belirli bir istatistik tarafından bilinir - sadece "çeşitli numaralar" kullanmazlar. Kurumsal sürücülerin sadece daha yüksek rakamlar olduğu, sabit disk üreticilerinin garanti bittikten sonra sürücülerinin arızalı olduğu ve Seagate'in sürücülerine her türlü 'programlı ölüm' uyguladığı yönündeki iddialarınızı yedeklemek için bazı önemli kaynaklara ihtiyacınız olacaktır.

— Kevin Vermeer

1

Rakiplerinden daha yüksek MTTF göstermek sürücü üreticilerinin yararınadır. +1

— tyblu

Tam olarak ne olduğunu disk arızası? Bir tanesi için önemli olan nedir?

— Kaitlyn Mcmordie