Arızalar Arasındaki Ortalama Süre - SSD


32

Ortalama Arızasız saat için ya da MTBF'si, bu SSD olarak listelenir 1,500,000saat.

Bu çok saatler. 1,500,000saatler kabaca 170yıllar. Bu özel SSD'nin icadı İç Savaş sonrası olduğundan, MTBF'nin ne olduğunu nasıl biliyorlar?

Bana mantıklı gelen birkaç seçenek:

  • Newegg sadece bir yazım hatası var
  • Başarısızlıklar arasındaki ortalama sürenin tanımı düşündüğüm şey değil.
  • MTBF'nin ne olacağını tahmin etmek için bir çeşit istatistiksel ekstrapolasyon kullanıyorlar.

Soru:

SSD / HDD'ler için Hatalar Arası Ortalama Süre (MTFB) nasıl elde edilir?


Yanıtlar:


34

Sürücü üreticileri, ürünlerinin güvenilirliğini iki ilişkili ölçümle belirtmektedir: yıllık tahminde ölçeklendirilen bir testte başarısız olan bir popülasyondaki disk sürücülerinin yüzdesi olan yıllık hata oranı (AFR); ve ortalama başarısızlık süresi (MTTF).

Yeni bir ürünün AFR'si tipik olarak hızlandırılmış yaşam ve stres testlerine veya önceki ürünlerden alınan saha verilerine dayanarak tahmin edilir. MTTF'nin, AFR'ye bölünerek yıllık saatteki güç sayısı olduğu tahmin edilmektedir. Sunuculardaki sürücüler için yaygın olarak kullanılan bir varsayım, zamanın% 100'ünde çalıştırıldıklarıdır.

http://www.cs.cmu.edu/~bianca/fast/

1,5 milyon saatlik MTTF biraz mantıklı geliyor.

Bu, kabaca 6 ay boyunca çalışan 1000 sürücünün ve 3 sürücünün arızalı olduğu bir test olacaktır.
AFR, yıllık (2 x 6 ay x 3) / (1000 sürücü) =% 0,6 ve MTTF = 1 yıl /% 0,6 = 1,460,967 saat veya 167 yıl olacaktır.

Bu sayıya bakmanın farklı bir yolu, 167 sürücünüz olduğunda ve bir yıl boyunca çalıştırılmaya başladığında üretici , ortalama olarak bir sürücünün arızalı olduğunu göreceğini iddia ediyor .

Ancak bunun basitçe sürekli "rastgele" mekanik / elektronik arıza oranı olmasını bekliyorum.

Arıza oranlarının küvet eğrisini takip ettiğini varsayarsak , yorumlarda belirtildiği gibi, üreticinin pazarlama ekibi, örneğin DOA'ları (varışta ölü, kalite kontrolünü geçen, ancak son kullanıcı başarısız olduğunda üniteleri dahil ederek) güvenilirlik numaralarını biraz masaj yapabilir bunları kurar) ve DOA tanımını gererek erken başarısızlık ani durumundakileri hariç tutar. Testler yeterince uzun sürmediği için yaş etkileri da görmeyeceksiniz.

Garanti süresinin bir üreticinin SSD'nin ne kadar sürmesini beklediğinin daha iyi bir göstergesi olduğunu düşünüyorum !
Bu kesinlikle on yıllar veya yüzyıllar içinde ölçülmeyecek ...


MTBF ile bağlantılı olarak, NAND hücrelerinin destekleyebileceği sınırlı sayıda yazma çevrimiyle ilişkili güvenilirliktir. Ortak bir metrik, genellikle TB cinsinden toplam yazma kapasitesidir. Diğer performans gereksinimlerine ek olarak bu büyük bir sınırlayıcıdır.

Farklı marka ve farklı ebatlarda sürücüler arasında daha uygun bir karşılaştırma yapmak için yazma dayanıklılığı genellikle disk kapasitesinin bir kısmı olarak günlük yazma kapasitesine dönüştürülür.

Bir sürücünün garanti kapsamında olduğu sürece yaşayacağı varsayılırsa:
100 GB'lık bir SSD'nin 3 yıl garantili ve 50 TB yazma kapasitesi olabilir:

        50 TB
---------------------  = 0.46 drive per day write capacity.
3 * 365 days * 100 GB

Bu sayı ne kadar yüksek olursa, disk yoğun yazma işlemi için o kadar uygun olur.
Şu anda (2014 sonu) değer sunucu satırı SSD'ler 0.3-0.8 sürücü / gün değerine sahip, orta seviye 1-5'ten sürekli artıyor ve yüksek seviye 25'e kadar yazma dayanıklılık seviyesine sahip gökyüzü roketi gibi görünüyor * 3-5 yıl boyunca günlük sürüş kapasitesi.

Bazı gerçek dünya testleri , bazen satıcı iddialarının büyük ölçüde aşılabileceğini, ancak satıcı firma limitlerini aşan ekipmanları sürmenin her zaman bir kurumsal düşünce olmadığını göstermektedir ... Bunun yerine , amaçlarınız için doğru şekilde üretilmiş sürücüler satın alın .


1
AFR’den MTTF’ye dönüşümün sabit bir AFR kabul ettiğini unutmayın. Bu, hareketli parçaları olan (örneğin sabit disk sürücüleri) olanlar için kesinlikle doğru değildir ve SSD'ler için doğru olmayabilir.
Mark

Kesinlikle doğru. IIRC erken bir başarısızlık artışı, ardından düşük başarısızlık dönemi ve daha sonra yaş arttıkça AFR'da sabit bir artış var. Değişen çevre faktörlerini eklediğinizde gerçek dünya sayısı daha da artar. @Chris S de belirtildiği gibi, garanti süresi faydalı gerçek dünya etkisi ile daha iyi bir ölçüm olabilir.
HBruijn

1.500.000 saatlik bir MTBF'nin gerçekten "ayık olduğu görüşünde," Bunun gibi 1000 ssd'ye sahipsem 3'ün 6 ay içinde (muhtemelen bundan daha erken) başarısız olacağı "anlamına geliyor. +1 (ve testlerin kısa bir sürenin üzerinde olması nedeniyle, bunların kullanım ömrünün çok fazla garantiyi geçmemesini bekleyin ... "MTBF" muhtemelen sürücünüz N yaşına ulaştığında çok düşer)
Olivier Dulac

1
@HBruijn Bilgilendirici cevabınız için teşekkürler. Bahsettiğiniz fenomen (erken başarısızlık artışı, düşük başarısızlık süresi, daha sonra başarısızlıklarda sürekli artış) küvet eğrisi ile tanımlanmaktadır .
OSE

19

Ne yazık ki MTBF çoğu insanın düşündüğü gibi değil ...

  • Bir sürücünün ne kadar süreceği belli değil .

    Üreticiler sürücülerinden garanti süresine kadar devam etmelerini bekliyorlar, ondan sonra sorun değil. Daha eski elektromanyetik tabla sabit diskleri 10 yıl veya daha uzun bir süre sonra ele geçirilecektir. Entegre devreler çok uzun bir süre dayanır, ancak diğer bileşenler (özellikle kapasitörler) bir miktar tahmin edilebilir döngüden sonra yıpranır.

  • Bu ise her saat başı başarısız 1 sürücüyü beklemek gerekir nasıl bu diskler birçok.

    Diğerlerinin belirttiği gibi, üreticiler makul bir süre içinde çeşitli testler yaparlar ve bir arıza oranı belirlerler. Bu tür testlerde adil bir miktar fark vardır ve pazarlama genellikle son sayının ne olması gerektiği konusunda "girdi" ye sahiptir. Ne olursa olsun, saat başına bir arızayı ortalama olarak almak için kaç sürücüye ihtiyaç duyulacağına dair en iyi çabayı gösterirler.

    Daha az tahrikli durumlar için, MTBF'ye dayanarak istatistiksel bir arıza olasılığını ortaya çıkarabilirsiniz, ancak iyi tasarlanmış ürünlerdeki arızaların "küvet" eğrisini izlemesi gerektiğini unutmayın - bu, cihazlar başlangıçta hizmete alındığında ve sonrasında daha yüksek arıza oranlarıdır. garanti süreleri, aralarındaki düşük başarısızlık oranlarıyla sona erdi.


2

Küçük bir örneklem büyüklüğüne ve kısa bir süreye dayanan istatistiksel bir değerlendirmeden gelirler. Gerçekten evrensel olarak kabul edilmiş bir yöntem ya da süreç yoktur, bu yüzden gerçekten saçma bir 'pazarlama'.

Bu makale biraz daha açıklayabilir. Ve Wikipedia'da aradığın şey olabilecek bazı formüller var.

Temel olarak, hemen hemen her şey için (bulaşık makinesi gibi genel ev makineleri dahil) birkaç ürün X süre boyunca çalıştırılır. MTFB'yi hesaplamak için bu süre zarfında kaç hata meydana gelir.

Elbette, ürünleri uzun bir ömür sürecek olan SSD'ler gibi tüm yaşam döngüsü boyunca çalıştırmak mümkün değildir. Bunlar çoğunlukla mekanik arızadan ziyade yazma miktarıyla sınırlıdır (bu MTFB'nin amacı budur).


2

MTBF hakkındaki kötü haber, ortak değerlendirme metodiklerinin tüm NAND hücreleri arasında eşit miktarda yazma yükü olduğunu varsaydığıdır. Ancak hücreler kümeler halinde gruplanır ve bir hücre başarısız olduğunda - kümenin tamamı ölü olarak işaretlenir ve rezervden yenisiyle değiştirilir. Genellikle rezerv SSD hacminin yaklaşık% 20'sidir. Yedek tükendiğinde tüm SSD ölü olarak işaretlenir.

IRL SSD, kalıcı olduğu kadar geçici veriler de içerir. Statik verilerle doldurulmuş SSD'nin% 90'ının olduğunu ve% 10 geri kalanının ağır yazma yükü altında olduğunu hayal edin. SSD kontrolörü yükü mevcut serbest kümeler arasında dağıtır. Bu% 10, ömrünü tahmin ettiğinizden 10 kat daha hızlı tüketiyor. Yedeklerden sonuna kadar tekrar tekrar değiştirilecektir.

Kalıcı / uçucu veri miktarının 30: 1 veya daha fazla olduğu gerçekten kötü durumda, örneğin - fotoğraf yığını ve popüler web sitesi için nispeten küçük bir veri tabanı, SSD'niz bir yıl içinde ölecek.

Müşterilerimden biri SSD özelliklerinden çok etkilendi ve DBMS sunucusunu çifti ile donatmak için ısrar etti. Önümüzdeki 12 ay içinde ikisini de iki kez değiştirdik.

Ancak SSD'nin pazarlama malzemelerine göre ömrü 170 yıldır. Emin.


1

MTBF, SSD sürücü dayanıklılığını ölçmekle ilgili değildir; çünkü SSD sıradan dönen HDD sürücü gibi zamana karşı duyarlı değildir, ancak SSD hücreleri için yeniden yazma sayısı için hassastır. SSD için daha uygun önlem, Gün Başına Sürücü Yazma (DWPD). . Örneğin, bazı kurumsal sınıf SSD diskleri 3.2TB dayanıklılığı, 5 yıl boyunca 3 DWPD olacaktır.

Bazı zamanlar SSD satıcısı, DWSD'ye kolayca çevrilebilen (Toplam) Terabayt Yazılı (TBW) veya "Yazma Çevrimleri" açısından dayanıklılık sağlar ve bunun tersine, verilen SSD sürücüsü için zaman ve maksimum verim bilgisi vardır.

3.2 TB SSD sürücüsü ile verilen örnek için:
TBW = DriveSize * Yıl * DWPD;
TBW = 3.2 TB * 5 * 365 * 3d = 5 yıl boyunca 17520 TB

Sürücü saniyede 80 MByte sürdürülebilir yazma verimi sağlıyorsa,
WriteCycles = DWPD * Years;
WriteCycles = 3 * 365 * 5 = 5475 verilen disk için toplam yazma çevrimi

Dikkat edilmesi gereken, sürücü için% 100 kullanım verimi sağlayacak olmanız durumunda en kötü durumu hesaplıyoruz (bu muhtemelen mümkün değildir).

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.