Her şeyden önce, herkesin sabit disklerin üreticilerin kabul etmek istediğinden daha fazla başarısız olduğunu bildiğini düşünüyorum . Google, yaptığı çalışmayı belirli ham veri sabit diskler raporlar SMART durum sürücünün gelecek yetmezliği olan güçlü bir korelasyona sahip olduğunu niteliklerini gösterir.
Örneğin, ilk tarama hatalarından sonra, sürücülerin böyle bir hata yapmayan sürücülerden 60 gün içinde başarısız olma ihtimalinin 39 kat daha fazla olduğunu bulduk. Yeniden tahsislerdeki ilk hatalar, çevrimdışı yeniden tahsisler ve muhtemel sayımlar da daha yüksek başarısızlık olasılıklarıyla güçlü bir şekilde ilişkilidir. Bu güçlü korelasyonlara rağmen, yalnızca SMART parametrelerine dayanan başarısızlık tahmin modellerinin, başarısız sürücülerimizin büyük bir kısmının hiçbir şekilde SMART hata sinyali göstermediği göz önüne alındığında, tahmin doğruluğunda ciddi bir şekilde sınırlı olduğunu bulduk.
Seagate , yalnızca yazılımlarının sürücülerinin doğru durumlarını doğru bir şekilde belirleyebileceğini ve bu sayede yazılımlarının SMART özellikleri için ham veri değerlerini söylemeyeceğini iddia ederek sürücüleri hakkındaki bu bilgiyi gizlemeye çalışıyor gibi görünüyor . Western digital, bildiğim kadarıyla böyle bir iddiada bulunmadı, ancak durum raporlama araçları da ham veri değerlerini rapor etmiyor gibi görünüyor.
Her özellik için ham veri değerlerini toplamak amacıyla smartmontools'dan HDtune ve smartctl kullanıyorum. Bunu gerçekten buldum ... Belirli özelliklere gelince elmaları portakallarla karşılaştırıyorum. Örneğin, çoğu Seagate diskinin milyonlarca okuma hatası olduğunu bildireceklerini, batı dijitalinin% 99'unun okuma hataları için 0 gösterdiğini bildiğini gördüm. Western Digital'in her zaman 0 rapor ettiği görülmesine rağmen Seagate'in milyonlarca arama hatası rapor edeceğini de tespit ettim.
S : Bu verileri nasıl normalleştiririm? Western Digital hiçbiri üretmezken Seagate milyonlarca hata üretiyor mu? Wikipedia'nın SMART durumu hakkındaki makalesi, üreticilerin bu verileri raporlamanın farklı yollarını bulunduğunu söylüyor.
İşte benim hipotezim:
Verileri normalleştirmek için bir yol buldum (doğru terim bu mu?).
Seagate disklerinde Western Digital disklerde bulunmayan ek bir özellik vardır (Donanım ECC Kurtarıldı). Okuma hatası sayısını ECC Kurtarılan sayımından çıkardığınızda, muhtemelen 0 ile bitirdiniz. Bu, "Dijital Okuma Hatası" sayılan Western Digital’lerle eşdeğer gibi görünüyor. Bu, Western Digital'in yalnızca düzeltemediği okuma hatalarını rapor ettiği ve Seagate'in tüm okuma hatalarını saydığı ve size kaç tane düzeltebileceğini söylediği anlamına gelir.
Read hata sayısının ECC Recovered sayısından az olduğu bir Seagate sürücüsü vardı ve dosyalarımın çoğunun bozulduğunu fark ettim. Bu şekilde hipotezimi ortaya çıkardım. Seagate'in ürettiği milyonlarca arama hatası hala benim için gizemli.
Lütfen ek bilgileriniz varsa hipotezimi doğrulayın veya düzeltin.
İşte batı dijital sürücümün akıllı durumu tam da neden bahsettiğimi görebilmeniz için:
james@ubuntu:~$ sudo smartctl -a /dev/sda
smartctl version 5.38 [x86_64-unknown-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/
=== START OF INFORMATION SECTION ===
Device Model: WDC WD1001FALS-00E3A0
Serial Number: WD-WCATR0258512
Firmware Version: 05.01D05
User Capacity: 1,000,204,886,016 bytes
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: 8
ATA Standard is: Exact ATA specification draft version not indicated
Local Time is: Thu Jun 10 19:52:28 2010 PDT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 179 175 021 Pre-fail Always - 4033
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 270
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 098 098 000 Old_age Always - 1468
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 262
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 46
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 223
194 Temperature_Celsius 0x0022 105 102 000 Old_age Always - 42
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0
Düzenleme: İşte bahsettiğim Seagate diski veri bozulmasına neden oldu. Bu veri HDTune'a aittir.
HD Tune: ST3250623A Health
ID Current Worst ThresholdData Status
(01) Raw Read Error Rate 45 38 6 77882492 Ok
(03) Spin Up Time 99 98 0 0 Ok
(04) Start/Stop Count 100 100 20 640 Ok
(05) Reallocated Sector Count 100 100 36 0 Ok
(07) Seek Error Rate 85 60 30 359872048 Ok
(09) Power On Hours Count 94 94 0 6028 Ok
(0A) Spin Retry Count 100 100 97 0 Ok
(0C) Power Cycle Count 100 100 20 689 Ok
(C2) Temperature 25 55 0 25 Ok
(C3) Hardware ECC Recovered 50 47 0 201555081 Ok
(C5) Current Pending Sector 100 100 0 0 Ok
(C6) Offline Uncorrectable 100 100 0 0 Ok
(C7) Ultra DMA CRC Error Count 200 199 0 1 Ok
(C8) Write Error Rate 100 253 0 0 Ok
(CA) TA Counter Increased 100 253 0 0 Ok
Power On Time : 6028
Health Status : Ok
ECC Kurtarılan Donanımının Ham Okuma Hata Oranından daha büyük olması bence karşı sezgisel.
ECC Kurtarılan Ham Okuma Hata Oranı ile eşleştiği "normal" bir deniz kapısı sürüşü olarak bulduğum şey bu:
HD Tune: ST380011A Health
ID Current Worst ThresholdData Status
(01) Raw Read Error Rate 62 46 6 79986164 Ok
(03) Spin Up Time 98 98 0 0 Ok
(04) Start/Stop Count 100 100 20 6 Ok
(05) Reallocated Sector Count 100 100 36 0 Ok
(07) Seek Error Rate 83 60 30 210309663 Ok
(09) Power On Hours Count 93 93 0 6516 Ok
(0A) Spin Retry Count 100 100 97 0 Ok
(0C) Power Cycle Count 99 99 20 1325 Ok
(C2) Temperature 25 52 0 25 Ok
(C3) Hardware ECC Recovered 62 46 0 79986164 Ok
(C5) Current Pending Sector 100 100 0 0 Ok
(C6) Offline Uncorrectable 100 100 0 0 Ok
(C7) Ultra DMA CRC Error Count 200 188 0 18 Ok
(C8) Write Error Rate 100 253 0 0 Ok
(CA) TA Counter Increased 100 253 0 0 Ok
Power On Time : 6516
Health Status : Ok
DÜZENLE:
Google’ın genellikle SMART’ı işe yaramaz olarak gördüğünü bildiğimi açıklığa kavuşturmak istiyorum. Herkesin verilerini yedeklemesi gerektiğini biliyorum. Ancak diğer insanların bilgisayarlarını tamir etme işindeyim. Çoğu insanda yedek yoktur veya RAID yoktur. Kurumların sabit disklerle ilgili sorunları gidermesi maliyet açısından uygun değildir, bu yüzden ölene kadar sadece bir RAID üzerinde çalıştırırlar. Çalışma alanımda sabit sürücünün SMART durumunu kontrol etmeyi faydalı buluyorum. 30 saniye sürer. Kötü bir sürücünün tarama hataları veya yeniden tahsis edilen sektörler gibi bir ipucu göstermesi için yeterince şanslıysam, sürücüyü oradan çekmeyi biliyorum. Böyle bir ipucu yoksa, nihayetinde sabit sürücünün kötü olduğunu bulana kadar yavaşlama ve veri bozulmalarını gidermek için saatlerce harcayacağım.
Sadece bu prosedüre ince ayar yapmaya çalışıyorum.