3Ware 9650SE 8 sürücülü RAID denetleyicisine sahip, 5 disk RAID6 dizisine sahip, sanal makine ana bilgisayarı, tüm Linux gibi davranan bir Debian sunucumuz var. Sorunlar devam ediyor ve algılanan bir bozuk diskten şüpheleniyorum.
Hem ev sahibinin hem de tüm konukların IO sisteminin 120 saniye veya daha fazla süreyle engellendiğini söyledikleri birkaç çökme yaşadık. Hatalı bir RAID denetleyicisinden şüphelendik, ancak onu aynı firmware ile özdeş olanla değiştirdik, ki bu sorunu düzeltmedi. İkinci bir RAID1 dizisi düzgün çalışmaya devam ettiğinden, öyle olacağını düşünmemiştim.
Neredeyse bir hafta önce (Pazar), bu işlem gerçekleştiğinde, otomatik doğrulama% 66 idi. Dün gece (cuma sabahı)% 67 idi. Hem önyüklemeden önce ve sonra hem de sorun yaşarken. Doğrulamayı kapattığımda tw_cli /c0/u0 stop verify
işler tekrar yanıt verdi.
Ben yaklaşık% 66 bir disk hatası sıkışmış şüpheli. Otomatik doğrulama Cumartesi günü başlar:
# tw_cli /c0 show verify
/c0 basic verify weekly preferred start: Saturday, 12:00AM
ve normalde Cuma'ya kadar uzun sürecekti. Pazar% 66 ve Cuma% 67 olarak görüldüğünde tesadüf olması pek olası değildir.
Tüm sürücülerdeki 'smartctl -a -d 3ware, 0 / dev / twa0' ve 'smartctl -t long' (uzun SMART kendi kendini sınama) hataları göstermedi. İkisi de değil tw_cli /c0 show alarms
.
Bir diskin algılanması zor bir şekilde bozulduğundan şüphelendim, ancak her sürücüyü diziden tek tek çıkardım, ondan bir 'tek' dizi oluşturdum ve sıfırlarla dolu dd'ed. Hiçbir disk hata göstermedi.
Veya başka bir tavsiye?
Düzenle:
bu düzen:
# tw_cli /c0 show
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-6 OK - - 256K 5587.9 RiW OFF
u1 SPARE OK - - - 1863.01 - OFF
u2 RAID-1 OK - - - 1862.63 RiW ON
VPort Status Unit Size Type Phy Encl-Slot Model
------------------------------------------------------------------------------
p0 OK u0 1.82 TB SATA 0 - ST32000542AS
p1 OK u0 1.82 TB SATA 1 - ST32000542AS
p2 OK u0 1.82 TB SATA 2 - ST32000542AS
p3 OK u0 1.82 TB SATA 3 - ST32000542AS
p4 OK u0 1.82 TB SATA 4 - ST32000542AS
p5 OK u1 1.82 TB SATA 5 - WDC WD2002FYPS-02W3
p6 OK u2 1.82 TB SATA 6 - WDC WD2002FYPS-02W3
p7 OK u2 1.82 TB SATA 7 - WDC WD2002FYPS-02W3
Name OnlineState BBUReady Status Volt Temp Hours LastCapTest
---------------------------------------------------------------------------
bbu On Yes OK OK OK 0 xx-xxx-xxxx
Söz konusu birim u0'dır.
edit2:
tw_cli / c0 show diag ilginç bir şey gösterir (edit3: bu zararsızdır, smartctl -a -d 3ware,X /dev/twa0
X'in geçersiz bir port olduğu yeri çağırmanın neden olduğunu öğrendim ):
QueueAtaPassthrough() called with invalid TargetHandle: 0x17, portHandle: 0xFF
Legacy opcode=0xB1 error=0x10E
E=010E T=14:15:51 : Invalid operation for specified port
E=010E T=14:15:51 U=0 : Return error status to host
Error, Unit 23: Invalid operation for specified port
(EC:0x10e, SK=0x05, ASC=0x24, ASCQ=0x00, SEV=01, Type=0x70)
No additional sense data
Error, Unit 23: 0x10E OVERRIDDEN due to invalid sense buffer descriptor
sense buffer: len=0, address=0x414ca2c7c
Send AEN (code, time): 0031h, 06/21/2013 14:26:16
Synchronize host/controller time
(EC:0x31, SK=0x00, ASC=0x00, ASCQ=0x00, SEV=04, Type=0x71)
Bunlardan tonlarca alıyorum. Ne anlama geldiğini bilmiyorum. Hangi birim veya limanın olduğunu bile anlayamıyorum. (edit3: Şimdi biliyorum, zararsız).
Benim edit3üm göz önüne alındığında, bir kareye geri döndüm. Hiçbir şey bir diskin bozuk olduğunu göstermez, ancak doğrulama% 66'da asılı kalır ve dizinin askıda kalmasına neden olur, bu da bazen rasgele gerçekleşir. Keşke doğrulamayı bulursa ...