Farklı üreticilerin neden farklı SMART değerleri var?

23

Her şeyden önce, herkesin sabit disklerin üreticilerin kabul etmek istediğinden daha fazla başarısız olduğunu bildiğini düşünüyorum . Google, yaptığı çalışmayı belirli ham veri sabit diskler raporlar SMART durum sürücünün gelecek yetmezliği olan güçlü bir korelasyona sahip olduğunu niteliklerini gösterir.

Örneğin, ilk tarama hatalarından sonra, sürücülerin böyle bir hata yapmayan sürücülerden 60 gün içinde başarısız olma ihtimalinin 39 kat daha fazla olduğunu bulduk. Yeniden tahsislerdeki ilk hatalar, çevrimdışı yeniden tahsisler ve muhtemel sayımlar da daha yüksek başarısızlık olasılıklarıyla güçlü bir şekilde ilişkilidir. Bu güçlü korelasyonlara rağmen, yalnızca SMART parametrelerine dayanan başarısızlık tahmin modellerinin, başarısız sürücülerimizin büyük bir kısmının hiçbir şekilde SMART hata sinyali göstermediği göz önüne alındığında, tahmin doğruluğunda ciddi bir şekilde sınırlı olduğunu bulduk.

Seagate , yalnızca yazılımlarının sürücülerinin doğru durumlarını doğru bir şekilde belirleyebileceğini ve bu sayede yazılımlarının SMART özellikleri için ham veri değerlerini söylemeyeceğini iddia ederek sürücüleri hakkındaki bu bilgiyi gizlemeye çalışıyor gibi görünüyor . Western digital, bildiğim kadarıyla böyle bir iddiada bulunmadı, ancak durum raporlama araçları da ham veri değerlerini rapor etmiyor gibi görünüyor.

Her özellik için ham veri değerlerini toplamak amacıyla smartmontools'dan HDtune ve smartctl kullanıyorum. Bunu gerçekten buldum ... Belirli özelliklere gelince elmaları portakallarla karşılaştırıyorum. Örneğin, çoğu Seagate diskinin milyonlarca okuma hatası olduğunu bildireceklerini, batı dijitalinin% 99'unun okuma hataları için 0 gösterdiğini bildiğini gördüm. Western Digital'in her zaman 0 rapor ettiği görülmesine rağmen Seagate'in milyonlarca arama hatası rapor edeceğini de tespit ettim.

S : Bu verileri nasıl normalleştiririm? Western Digital hiçbiri üretmezken Seagate milyonlarca hata üretiyor mu? Wikipedia'nın SMART durumu hakkındaki makalesi, üreticilerin bu verileri raporlamanın farklı yollarını bulunduğunu söylüyor.

İşte benim hipotezim:

Verileri normalleştirmek için bir yol buldum (doğru terim bu mu?).

Seagate disklerinde Western Digital disklerde bulunmayan ek bir özellik vardır (Donanım ECC Kurtarıldı). Okuma hatası sayısını ECC Kurtarılan sayımından çıkardığınızda, muhtemelen 0 ile bitirdiniz. Bu, "Dijital Okuma Hatası" sayılan Western Digital’lerle eşdeğer gibi görünüyor. Bu, Western Digital'in yalnızca düzeltemediği okuma hatalarını rapor ettiği ve Seagate'in tüm okuma hatalarını saydığı ve size kaç tane düzeltebileceğini söylediği anlamına gelir.

Read hata sayısının ECC Recovered sayısından az olduğu bir Seagate sürücüsü vardı ve dosyalarımın çoğunun bozulduğunu fark ettim. Bu şekilde hipotezimi ortaya çıkardım. Seagate'in ürettiği milyonlarca arama hatası hala benim için gizemli.

Lütfen ek bilgileriniz varsa hipotezimi doğrulayın veya düzeltin.

İşte batı dijital sürücümün akıllı durumu tam da neden bahsettiğimi görebilmeniz için:

james@ubuntu:~$ sudo smartctl -a /dev/sda
smartctl version 5.38 [x86_64-unknown-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model:     WDC WD1001FALS-00E3A0
Serial Number:    WD-WCATR0258512
Firmware Version: 05.01D05
User Capacity:    1,000,204,886,016 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Thu Jun 10 19:52:28 2010 PDT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   179   175   021    Pre-fail  Always       -       4033
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       270
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   098   098   000    Old_age   Always       -       1468
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       262
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       46
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       223
194 Temperature_Celsius     0x0022   105   102   000    Old_age   Always       -       42
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

Düzenleme: İşte bahsettiğim Seagate diski veri bozulmasına neden oldu. Bu veri HDTune'a aittir.

HD Tune: ST3250623A Health

ID                               Current  Worst    ThresholdData       Status   
(01) Raw Read Error Rate         45       38       6        77882492   Ok       
(03) Spin Up Time                99       98       0        0          Ok       
(04) Start/Stop Count            100      100      20       640        Ok       
(05) Reallocated Sector Count    100      100      36       0          Ok       
(07) Seek Error Rate             85       60       30       359872048  Ok       
(09) Power On Hours Count        94       94       0        6028       Ok       
(0A) Spin Retry Count            100      100      97       0          Ok       
(0C) Power Cycle Count           100      100      20       689        Ok       
(C2) Temperature                 25       55       0        25         Ok       
(C3) Hardware ECC Recovered      50       47       0        201555081  Ok       
(C5) Current Pending Sector      100      100      0        0          Ok       
(C6) Offline Uncorrectable       100      100      0        0          Ok       
(C7) Ultra DMA CRC Error Count   200      199      0        1          Ok       
(C8) Write Error Rate            100      253      0        0          Ok       
(CA) TA Counter Increased        100      253      0        0          Ok       

Power On Time         : 6028
Health Status         : Ok

ECC Kurtarılan Donanımının Ham Okuma Hata Oranından daha büyük olması bence karşı sezgisel.

ECC Kurtarılan Ham Okuma Hata Oranı ile eşleştiği "normal" bir deniz kapısı sürüşü olarak bulduğum şey bu:

HD Tune: ST380011A Health

ID                               Current  Worst    ThresholdData       Status   
(01) Raw Read Error Rate         62       46       6        79986164   Ok       
(03) Spin Up Time                98       98       0        0          Ok       
(04) Start/Stop Count            100      100      20       6          Ok       
(05) Reallocated Sector Count    100      100      36       0          Ok       
(07) Seek Error Rate             83       60       30       210309663  Ok       
(09) Power On Hours Count        93       93       0        6516       Ok       
(0A) Spin Retry Count            100      100      97       0          Ok       
(0C) Power Cycle Count           99       99       20       1325       Ok       
(C2) Temperature                 25       52       0        25         Ok       
(C3) Hardware ECC Recovered      62       46       0        79986164   Ok       
(C5) Current Pending Sector      100      100      0        0          Ok       
(C6) Offline Uncorrectable       100      100      0        0          Ok       
(C7) Ultra DMA CRC Error Count   200      188      0        18         Ok       
(C8) Write Error Rate            100      253      0        0          Ok       
(CA) TA Counter Increased        100      253      0        0          Ok       

Power On Time         : 6516
Health Status         : Ok

DÜZENLE:

Google’ın genellikle SMART’ı işe yaramaz olarak gördüğünü bildiğimi açıklığa kavuşturmak istiyorum. Herkesin verilerini yedeklemesi gerektiğini biliyorum. Ancak diğer insanların bilgisayarlarını tamir etme işindeyim. Çoğu insanda yedek yoktur veya RAID yoktur. Kurumların sabit disklerle ilgili sorunları gidermesi maliyet açısından uygun değildir, bu yüzden ölene kadar sadece bir RAID üzerinde çalıştırırlar. Çalışma alanımda sabit sürücünün SMART durumunu kontrol etmeyi faydalı buluyorum. 30 saniye sürer. Kötü bir sürücünün tarama hataları veya yeniden tahsis edilen sektörler gibi bir ipucu göstermesi için yeterince şanslıysam, sürücüyü oradan çekmeyi biliyorum. Böyle bir ipucu yoksa, nihayetinde sabit sürücünün kötü olduğunu bulana kadar yavaşlama ve veri bozulmalarını gidermek için saatlerce harcayacağım.

Sadece bu prosedüre ince ayar yapmaya çalışıyorum.

hard-drive smart statistics

— James T
kaynak

Disk yönetimi altındaki (inanıyorum) altındaki yönetim menüsünde akıllı bilgi var. Smartctl üzerinde ek yetenekleri olabilir, ama ben bir süredir kullanmadım ve önümde yok.

— Jarvin

@Dan Merhaba Dan, hangi pencere aracından bahsettiğinden emin değilim. Açıklayabilir misin?

— James T,

SMART ile ilgili sorun biraz yanlış bir isim olması; İçinde gerçek bir zeka yoktur, sadece birkaç denklem vardır (muhtemelen sezgisel bile değil). Yapabileceği tek şey kendini izlemek ve sayıları bildirmek, hepsi bu. Örneğin, kötü bağlanmış bir güç kablosuna sahip olan ve birkaç kez çok hızlı bir şekilde açılıp kapanmasına neden olan ("ölüm tıklatması" sesi) çıkaran bir sürücüm var. Konektörü tekrar yerleştirdim, bu yüzden şimdi sorunsuz çalışıyor, ancak geçici (sabitlenebilir) bir arıza nedeniyle SMART'da bir RRER olayı kalıcı olarak kaydedilmiş, arızalanmış gibi görünüyor.

— Synetech

14

Farklı üreticilerin, burada görebileceğiniz gibi, bazen çok farklı şeyler için SMART değerleri kullandıkları görülüyor :

ReadyNAS'taki sabit disklerim yüksek SMART Ham Okuma Hata Oranı, Arama Hata Oranı ve Donanım ECC Kurtarıldı rapor ediyor. Ne yapmalıyım?

Seagate, bu SMART alanlarını dahili sayımlar için kullanır, bu nedenle bu Seagate disklerinde bilinen bir sorundur. Diğer alanlarda, özellikle Yeniden Tahsis Edilen Sektör Ct ve ATA Hata Sayısı'ndaki anormal sayıları arayın.

Yani gerçek sorunuza gelince ...

Kötü bir sürücünün tarama hataları veya yeniden tahsis edilen sektörler gibi bir ipucu göstermesi için yeterince şanslıysam, sürücüyü oradan çekmeyi biliyorum. Böyle bir ipucu yoksa, nihayetinde sabit sürücünün kötü olduğunu bulana kadar yavaşlama ve veri bozulmalarını gidermek için saatlerce harcayacağım.

İyi bir kural olduğunu söyleyebilirim, SMART ayarlarının yalnızca aynı sürücü üreticisi ve hatta aynı sürücü modeli içinde karşılaştırılabilir olmasını bekleyebilirsiniz!

Bu SMART sayımlarını teşhis ederken, bir üreticinin "hata okuma tekrarı sayımı" nı diğer üreticiden tamamen farklı bir şey ifade edebilir. Acı ama gerçek. :(

— Jeff Atwood
kaynak

14

Tamam, öncelikle ben senin öncülüne katılmıyorum.

Google, belirli ham veri özelliklerinin, sabit sürücü raporlarının SMART durumunun, sürücünün gelecekteki arızası ile güçlü bir korelasyonu olabileceğini gösteren bir çalışma yaptı.

Aslında tam tersini buldular:

... yalnızca SMART parametrelerine dayanan arıza tahmin modellerinin, arıza tespit sürücülerimizin büyük bir kısmının hiçbir SMART hata sinyali göstermediği göz önüne alındığında, tahmin doğruluğunda ciddi bir şekilde sınırlı olacağını bulduk.

İkincisi, SMART eşikleri vardır değil standardize. Sürücüdeki ürün yazılımı bir özniteliği "başarısızlık öncesi" olarak işaretler, ancak ham değerler kullanıcı için anlamsızdır. Örneğin, Seagate diyor ki :

Çeşitli nitelikler belirli eşik sınırlarına göre izlenir ve ölçülür. Herhangi bir özellik bir eşiği aşarsa, genel bir SMART Durum testi Geçişten Geçişe değişecektir.

Üçüncü taraf SMART yazılımı tarafından okunabilecek SMART değerleri, değerlerin Seagate sabit disklerinde nasıl kullanılabileceğine bağlı değildir. Seagate, bireysel SMART niteliklerini ve eşiklerini okuduğunu iddia eden yazılım programlarına destek sağlamaz. Eski sürücülerde bazı tarihsel doğruluk olabilir, ancak yeni sürücüler yeni çözümler, özellikler ve eşikler içereceklerdir.

tl; dr Özet:

Ham SMART değerleri, farklı üreticiler farklı şekillerde kullandıklarından ve farklı eşik değerlerine sahip olduklarından neredeyse anlamsızdırlar. çok güvenilir.

Düzenli yedekleme yapın!

— sml
kaynak

Yorumlarınıza dayanarak bütün yazımı okudunuz gibi görünmüyor. Bu yüzden tüm arka plan bilgisini ve alıntıları koydum. Google’dan alıntı yaptınız ancak bunun çok seçkin bir parçası oldunuz. Parçayı teklifinizden hemen önce okursanız ... bazı özelliklerin güçlü bir başarısızlık korelasyonu olduğunu söylüyor. Üreticiler, disklerini yeniden tahsis edilen bir sektörden sonra başarısızlık durumunda olduklarını bildirmiyorlar. Bu açıkça, ham verilere bakarak sürücünün sağlığını daha iyi anladığınızı gösterir.

— James T

Seagate diskimin verilerimi bozduğunu ve ham veri değerlerinin sağlıklı diskler olduğumu öğrendiklerimden belirgin şekilde farklı olduğunu da eklemek isterim. Açıkça, üreticinin eşiği belirlediği yerde bir sorun var.

— James T,

Mesajımı ve bağlantımı tekrar okumanız gerektiğini düşünüyorum. Ham SMART değerleri hiçbir şeyin güvenilir göstergesi değildir . Google raporu, "bazı özelliklerin güçlü bir başarısızlık ilişkisine sahip olduğunu" söylemiyor. Ne söz does rağmen "onların fi tarama hatayı RST sonra, sürücüler daha muhtemel böyle bir hata ile sürücülere daha 60 gün içinde başarısız 39 kez" olduğunu yani başarısız tahrik nüfusun% 15'inden az vardı herhangi Tarama Hataları. Zamanın% 15'i doğru ise güvenilir bir gösterge midir?

— sml

1

@scottl% 15'inizi nereden aldığınızdan emin değilim. Makalede görmedim. Sürücülerinin sadece% 15'inde tarama hataları olsa bile ... tarama hataları olan bir sürücünün 60 günde başarısız olma ihtimalinin 39 kat daha fazla olduğunu buldular. Bu, tarama hataları olmadıkça sürücünüzün başarısız olmayacağı anlamına gelmez. Bu sadece bir tarama hatası yaparsanız ... sabit diskinizin kalan ömrünün muhtemelen kısa olduğu anlamına gelir. Hiç istatistik aldın mı? Bunu çok kullanışlı buldum.

— James T,

1

smartmontools SSS şunları söylüyor: Ham SMART özellikleri (sıcaklık, açılış ömrü vb.) satıcıya özgü yapılarda depolanır. Bazen bunlar garip. Hitachi diskleri (en azından bazıları) açılış ömrünü saatler yerine dakikalar içinde saklarlar (aşağıdaki soruya bakınız). IBM diskleri (en azından bazıları), ham yapıda depolanan üç sıcaklığa sahiptir, yalnızca bir tane değil. Ve bunun gibi.

— sml

4

Ne sorduğun ne olduğundan emin değilim. Bütün soru ve cevapları bir araya getirmiş görünüyorsun ama ...

Sabit sürücü ölçütlerini SeaTools'tan verilenlerle karşılaştırdınız mı?

Seagate'in standart donanım tanı aracı ve en yaygın kullanılan HDD tanı aracı AFAIK'tir.

Araçların rakipleri hakkında olumsuz sonuçlar bildirdiğini fark ederseniz şaşırmayın. Araçlar genellikle tüm üreticilerin HDD'leriyle çalışır, ancak bu, rakiplerini yaparken iyi görünmelerini sağladığı anlamına gelmez.

Hiç şaka duymadınız mı? "Elbette bu istatistik hariç tüm istatistiklerin% 99,99'u doğrudur".

— Evan Plaice
kaynak

1

Evet ... biraz kafa karıştırıcı. Temelde sorudan önce aşina olduğum tüm temel bilgileri ve sorudan sonraki tüm testlerimi ve varsayımlarımı koydum. Sorum şu: "Bu verileri nasıl normalleştiririm?". Temel olarak .. bir üreticiden gelen tüm veri niteliklerini başka bir üreticiden gelen veri özellikleriyle aynı anlama gelir, böylece bunları doğru bir şekilde karşılaştırabilirim.

— James T,

@James Mümkün olduğu kadar çok farktan veri toplamaya çalışabilir ve verileri birbirinden farklı olarak yorumladığınızda bunların her birinin nasıl olduğunu anlayabilirsiniz. Hepsi doğru verileri rapor ediyor olabilir, sadece sizin belirttiğiniz gibi farklı bir şekilde yorumluyor olabilirler. Bu yüzden istatistik teklifini ekledim ... Verilerin iyi olması, yorumların demek olduğu anlamına gelmez.

— Evan Plaice,

2

Evet, yaptığım şey bu. 70'in üzerinde farklı sabit diski kontrol ettim ve hata arama ve okuma hatalarındaki büyük fark bana yapışan özellikler. Seagate diskleri için, okuma hatalarının donanım ecc ile kurtarılan bir ilişki olduğunu tahmin ediyorum. Bu ilişkinin ne olduğundan tam olarak emin değilim. Burada birinin bana söyleyebileceğini umuyordum. Ayrıca, batı dijitallerinin her zaman sıfır gibi gözüktüğü sırada birisinin neden seagate sürücülerinin neden büyük arama hatalarına sahip olduğunu söyleyebileceğini umuyordum.

— James T,

@James Belki birileri daha iyi bir cevap ile gelebilir ... Dürüst tahminim, Western Digital muhtemelen SMART özelliklerine tam uymuyor. Donanım standartlarındaki sorun bu, bunlar harika satış noktalarıdır ancak her zaman tam şartı yerine getirmeden tüm faydaları pazarlayacak birkaç üretici vardır.

— Evan Plaice,

Standarttan sapma, düşündüğüm şey ve wikipedia makalesinin önerdiği şey. İki üreticiyi (ve muhtemelen diğerlerini) doğru şekilde karşılaştırabilmem için nasıl farklı olduklarını bilmek istiyorum. Yorumlarınız için teşekkürler Evan. Umarım bu diğerleri için de soruyu netleştirir.

— James T,

2

Sabit sürücü dahili aygıtlarının fiziksel gerçekliğinde, 100 MB'tan büyük tüm sabit disk markalarının birçok fiziksel okuma hatası olacaktır. Bunların çoğu ECC tarafından güvenli bir şekilde düzeltildi, bazıları (umarım çok az) ECC tarafından yanlış düzeltildi ve diğerleri (yanlış düzeltmelerden çok az ama fazlası) başarısız olarak okundu ve sürücünün otomatik olarak yerini değiştirmesini sağlamalıdır. kötü sektör.

Ham okuma hatalarının düzeltilmesine ek olarak ECC, donanım düşüncesinin iyi olduğunu ancak geri dönen bitlerin biraz yanlış olduğunu okuduğunu da düzeltir. Bu nedenle ECC düzeltildi "ham okuma başarısız oldu ancak ECC tarafından düzeltildi + ham okuma başarılı oldu ancak hatalı oldu ve ECC tarafından düzeltildi".

Böylece verilerin iki yorumu mümkün gözüküyor:

A. Seagate ürünü olmayan sürücüler ECC düzeltilmiş okuma hatalarını "ham okuma hata sayısı" na, yalnızca düzeltilemeyen hatalara dahil etmez.

B. ECC, düşük seviye devresi fark etmese bile, diğerlerinde farketmese bile, eğer ECC verilerde yanlış bir şey bulursa, okuma hatası olarak kabul eder.

Normalizasyon hangi teoriye (A veya B) uygun olduğuna bağlı olarak çok farklı olacaktır.

— Jakob Bohm
kaynak

> ayrıca sürücünün kötü kesimi otomatik olarak yeniden konumlandırmasını sağlamalıdır. Öyleyse, Düzeltilemeyen Sektör Sayısı Taşınan Olay Sayısı ve Cari Bekleyen Sektör Sayısı alanları arasındaki ilişki nedir? Akımı arttırmayacak , sonra yerini değiştirmeyecek ya da düzeltilemez mi? Neden düzeltilemezdi? Kötü bir sektörü yeniden ele geçirmeye çalıştıysa ve başarısız olduysa (yani, yedek sektör kötüdür), o zaman farklı bir yedek sektöre yeniden göndermeyi denemeli mi? Sadece bir yedeği olan bir lastik değil.

— Synetech

100 MB? 100 GB mı demek istiyorsun?

— Peter Mortensen,