3Ware RAID6 dizisi bazen asılı. Tespit edilmemiş bozuk disk?


13

3Ware 9650SE 8 sürücülü RAID denetleyicisine sahip, 5 disk RAID6 dizisine sahip, sanal makine ana bilgisayarı, tüm Linux gibi davranan bir Debian sunucumuz var. Sorunlar devam ediyor ve algılanan bir bozuk diskten şüpheleniyorum.

Hem ev sahibinin hem de tüm konukların IO sisteminin 120 saniye veya daha fazla süreyle engellendiğini söyledikleri birkaç çökme yaşadık. Hatalı bir RAID denetleyicisinden şüphelendik, ancak onu aynı firmware ile özdeş olanla değiştirdik, ki bu sorunu düzeltmedi. İkinci bir RAID1 dizisi düzgün çalışmaya devam ettiğinden, öyle olacağını düşünmemiştim.

Neredeyse bir hafta önce (Pazar), bu işlem gerçekleştiğinde, otomatik doğrulama% 66 idi. Dün gece (cuma sabahı)% 67 idi. Hem önyüklemeden önce ve sonra hem de sorun yaşarken. Doğrulamayı kapattığımda tw_cli /c0/u0 stop verifyişler tekrar yanıt verdi.

Ben yaklaşık% 66 bir disk hatası sıkışmış şüpheli. Otomatik doğrulama Cumartesi günü başlar:

# tw_cli /c0 show verify
/c0 basic verify weekly preferred start: Saturday, 12:00AM

ve normalde Cuma'ya kadar uzun sürecekti. Pazar% 66 ve Cuma% 67 olarak görüldüğünde tesadüf olması pek olası değildir.

Tüm sürücülerdeki 'smartctl -a -d 3ware, 0 / dev / twa0' ve 'smartctl -t long' (uzun SMART kendi kendini sınama) hataları göstermedi. İkisi de değil tw_cli /c0 show alarms.

Bir diskin algılanması zor bir şekilde bozulduğundan şüphelendim, ancak her sürücüyü diziden tek tek çıkardım, ondan bir 'tek' dizi oluşturdum ve sıfırlarla dolu dd'ed. Hiçbir disk hata göstermedi.

Veya başka bir tavsiye?

Düzenle:

bu düzen:

# tw_cli /c0 show

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-6    OK             -       -       256K    5587.9    RiW    OFF    
u1    SPARE     OK             -       -       -       1863.01   -      OFF    
u2    RAID-1    OK             -       -       -       1862.63   RiW    ON     

VPort Status         Unit Size      Type  Phy Encl-Slot    Model
------------------------------------------------------------------------------
p0    OK             u0   1.82 TB   SATA  0   -            ST32000542AS        
p1    OK             u0   1.82 TB   SATA  1   -            ST32000542AS        
p2    OK             u0   1.82 TB   SATA  2   -            ST32000542AS        
p3    OK             u0   1.82 TB   SATA  3   -            ST32000542AS        
p4    OK             u0   1.82 TB   SATA  4   -            ST32000542AS        
p5    OK             u1   1.82 TB   SATA  5   -            WDC WD2002FYPS-02W3 
p6    OK             u2   1.82 TB   SATA  6   -            WDC WD2002FYPS-02W3 
p7    OK             u2   1.82 TB   SATA  7   -            WDC WD2002FYPS-02W3 

Name  OnlineState  BBUReady  Status    Volt     Temp     Hours  LastCapTest
---------------------------------------------------------------------------
bbu   On           Yes       OK        OK       OK       0      xx-xxx-xxxx

Söz konusu birim u0'dır.

edit2:

tw_cli / c0 show diag ilginç bir şey gösterir (edit3: bu zararsızdır, smartctl -a -d 3ware,X /dev/twa0X'in geçersiz bir port olduğu yeri çağırmanın neden olduğunu öğrendim ):

QueueAtaPassthrough() called with invalid TargetHandle: 0x17, portHandle: 0xFF

Legacy opcode=0xB1 error=0x10E

E=010E T=14:15:51     : Invalid operation for specified port
E=010E T=14:15:51 U=0 : Return error status to host
Error, Unit 23: Invalid operation for specified port
(EC:0x10e, SK=0x05, ASC=0x24, ASCQ=0x00, SEV=01, Type=0x70)
No additional sense data
Error, Unit 23: 0x10E OVERRIDDEN due to invalid sense buffer descriptor
sense buffer: len=0, address=0x414ca2c7c
Send AEN (code, time): 0031h, 06/21/2013 14:26:16
Synchronize host/controller time
(EC:0x31, SK=0x00, ASC=0x00, ASCQ=0x00, SEV=04, Type=0x71)

Bunlardan tonlarca alıyorum. Ne anlama geldiğini bilmiyorum. Hangi birim veya limanın olduğunu bile anlayamıyorum. (edit3: Şimdi biliyorum, zararsız).

Benim edit3üm göz önüne alındığında, bir kareye geri döndüm. Hiçbir şey bir diskin bozuk olduğunu göstermez, ancak doğrulama% 66'da asılı kalır ve dizinin askıda kalmasına neden olur, bu da bazen rasgele gerçekleşir. Keşke doğrulamayı bulursa ...


Hangi HDD'ler? Resmi olarak destekleniyorlar mı?
grs

Düzeni ekledim. Diskler ST32000542AS'dir. Desteklenirler, ancak daha fazlası, sunucu 3 yıl boyunca iyi çalıştı.
Halfgaar

Bazı WD sürücüler bir noktada verrryyyy yavaş olma ile ilgili sorun vardı. sadece bir hdparm (burada ne yazık ki yapılamaz) bana normal 80 ~ 100MB / s yerine ~ 300KB / s (evet K!) çıktı gösterdi.
Benjamin Sonntag

1
Enterprise ile masaüstü sürücülerin diskleri arasındaki fark, hataları gidermeleridir. Enterprise sürücüler herhangi bir hatayla karşılaşırsa, disk baskından çıkar. (veri depolama risklerine duyarlı olan şirketlerde olduğu gibi ve bunun bedelini ödemeye hazırsa) Bir masaüstü sürücüsü arızayı karşılıyorsa, tüm zaman aşımları sona erene kadar sürmeye çalışır. (Kullanıcılar tek bir sürücü olarak ve ulaşmaları gereken verilere ve bir kerede disklerden düştüğünde, üretici çok acı verici olacaktır) görünüşe göre ST32000542AS sessiz ve ekonomik masaüstü sürüm diskleridir. örneğin goo.gl/rWb5lj
Rainbow-

Aslında, son zamanlarda, bu sunucu aniden, orijinal sorundan farklı ve daha ciddi bir şekilde asılı kaldı ve günlükler bir RAID bağlantı noktasında bir zaman aşımı gösterdi. Zaman aşımı (bu sunucunun şimdi daha fazlasına sahip olduğu) kurumsal sürücülerden birindeydi.
Halfgaar

Yanıtlar:


1

Şimdiye kadar yetiştirilmemiş 2 şey:

  1. Bu bir SATA RAID denetleyicisi mi? Öyleyse, SATA kabloları yaşlanmaya eğilimlidir ve değiştirilmesi bu tür sorunları kolayca çözebilir. Çoğu zaman bu, disk hataları, gecikmeler, zaman aşımları meydana geldiğinde ancak SMART değerlerinin tamam olduğu ve sürücünün tüm kendi testlerini geçtiğinde denenebilir. Ne yazık ki iyi bir SATA kablo satıcısı bulmak zordur.
  2. 3Ware RAID denetleyicileri eskidir ve bugünlerde desteklenmemektedir. Ürün bilgisi yükseltmeleri veya yedek parça alamazsınız. Denetleyicinizin ölmesi durumunda, eşleşen denetleyici VE ürün yazılımı olmadan RAID kurtarılamayabilir. Daha sonra pahalı bir veri kurtarma gerekir.

0

Bu sorunun nedeni, bir okuma hatasıyla karşılaşan disklerden birinin, sektörü yeniden konumlandırmayı başarana veya RAID denetleyicisinin sürücünün öldüğünü ve dizinin "Bozulmuş" olarak işaretlenmesini önermesine kadar tüm diziyi engellemesinden kaynaklanıyor olabilir. (bu tamamen söz konusu kontrolöre bağlıdır). Bu, bir disk ölmeye başlıyor, ancak yine de SMART'ı geçiyorsa ortaya çıkabilir. Çoğu tüketici diski okumaya sonsuza dek devam edecektir.

Bu sorun, Hata kurtarma kontrolü adı verilen bir şey kullanılarak RAID için hedeflenen bazı sürücülerde çözülmüştür . WD bu TLER'i çağırır. Siteden:

RAID-specific time-limited error recovery (TLER) - Pioneered by WD, this feature prevents drive fallout caused by the extended hard drive error-recovery processes common to desktop drives.

Temel olarak, bir diske bir sektörü okuyamazsa x saniyeden sonra vazgeçeceğini söyler. Veriler başka bir diskten kurtarılabileceğinden, bu bir RAID'de mükemmeldir.

Okuduğum kadarıyla, ST32000542AS herhangi bir ERC formu uygulamıyor, böylece herhangi biri tüm diziyi engelleyebilir. WD2002FYPS aslında WD'nin TLER'ini uygular, böylece bu soruna neden olmazlar.


0

Sadece emin olmak için, ürün yazılımı sürümünüz nedir?

Aşağıdaki gereksinimler karşılandığında karşılaştığım bir sorun vardı - kastettiğinize çok benziyor -

  • 3ware 96xx serisi denetleyici
  • RAID 6
  • 256k Şerit Boyutu
  • Yazılım sürümü <v4.10.00.021 *

O zaman hiçbir firmware düzeltmesi mevcut değildi, bu yüzden de sorunu çözen 256k'den 64k'lik şerit boyutuna geçtim. Geçici çözüm olarak deneyebilirsiniz, ancak tamamlanması günler sürecektir.

Daha sonra 256k ile yeni firmware (* 4.10.00.021 düzeltmek vardı) denedim ve bir cazibe gibi çalıştı. 4.10.00.027 son sürümüdür.


Artık sorunumuz yok. Doğrulama her zaman başarılı oldu. Ancak birkaç ay önce (sorun uzun bir süre sonra) tam bir sunucu asmak aldın. Dmesg, disk x'in zaman aşımına uğradığını söyledi. Denetleyicinin neden tekme atmadığını bilmiyorum, ancak açıkça bozulmuş olarak işaretlenmemiş olsa bile, değiştirdim. Ve o zamandan beri başka diskler de değiştirildi. Yani muhtemelen bir disk sorunuydu.
Halfgaar

0

3ware denetleyicisi ve Seagate diskleriyle ilgili sorunlar yaşıyordum. İnce bir bellenim uyumsuzluğu var. Samsung disklere geçtim, sorun çözüldü.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.