Bilinmeyen bir nedenden dolayı çevrimdışı düşen sabit diskler


11

Aşağıdaki kurulumu çalıştıran 7 sistemim var. Şimdi ve sonra farklı bir disk çevrimdışı düşüyor, ancak daha yakından incelendiğinde disk iyi ve arızalı değil ve en az bir yıl daha sorunsuz çalışıyor. Bu, tüm 7 sistemde gerçekleştiğinden, hareket eden tek bir parçanın (örn. Kablo) bulunma olasılığını bulmuyorum, ancak bunun yerine biraz uyumsuz olan bazı parçaların birleşimi.

Sorun, uyumsuzluğun tam yerini bulmaktır.

(Bunun yerine, komut satırından sabit diskin sanal olarak yeniden oturmasını yapabileceğiniz bir geçici çözümünüz varsa, /server/523315/re-activate-device adresini yanıtlayabilirsiniz. -bu ölü olarak kabul edilir ).

Sunucu donanımı: Dell 1950, Dell R815, Dell R715.

İşletim sistemi:

$ uname -a
Linux franklin 3.2.0-4-amd64 #1 SMP Debian 3.2.41-2+deb7u2 x86_64 GNU/Linux

Denetleyici:

$ lspci |grep 22: 
22:00.0 Serial Attached SCSI controller: LSI Logic / Symbios Logic SAS2008 PCI-Express Fusion-MPT SAS-2 [Falcon] (rev 03)
$ sas2flash -listall
LSI Corporation SAS2 Flash Utility
Version 15.00.00.00 (2012.11.06) 
Copyright (c) 2008-2012 LSI Corporation. All rights reserved

    Adapter Selected is a LSI SAS: SAS2008(B2)   

Num   Ctlr            FW Ver        NVDATA        x86-BIOS         PCI Addr
----------------------------------------------------------------------------

1  SAS2008(B2)     15.00.00.00    0f.00.00.04    07.29.00.00     00:22:00:00

    Finished Processing Commands Successfully.
    Exiting SAS2Flash.

Tek LSI SAS2X36 Genişletici Çipli SAS / SATA genişletici Supermicro 4U SAS / SATA Genişletici Arka Paneli:

cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:21/end_device-5:0:21/target5:0:21/5:0:21:0/model
SAS2X36         
cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:21/end_device-5:0:21/target5:0:21/5:0:21:0/rev
0717

Diskler:

$ cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:1/end_device-5:0:1/target5:0:1/5:0:1:0/model
Hitachi HDS72404
$ cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:1/end_device-5:0:1/target5:0:1/5:0:1:0/rev
A3B0

Bir sistemdeki diskler:

$ cat /sys/devices/pci0000:20/0000:20:0b.0/0000:23:00.0/host5/port-5:0/expander-5:0/port-5:0:8/end_device-5:0:8/target5:0:8/5:0:8:0/model
ST3000DM001-9YN1
$ cat /sys/devices/pci0000:20/0000:20:0b.0/0000:23:00.0/host5/port-5:0/expander-5:0/port-5:0:8/end_device-5:0:8/target5:0:8/5:0:8:0/rev
CC4C

Sistem günlüğü:

sd 5:0:22:0: [sdw] Unhandled error code
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
sd 5:0:22:0: [sdw] Unhandled error code
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
sd 5:0:22:0: [sdw]
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b9 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982694144
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b7 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982693632
sd 5:0:22:0: [sdw] Unhandled error code
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Read(16):
sd 5:0:22:0: [sdw] Unhandled error code
 88 00 00 00 00 01 43 e2 f2 d0 00 00 00 10 00 00
end_request: I/O error, dev sdw, sector 5433914064
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 bd 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982695168
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
md/raid:md4: Disk failure on sdw, disabling device.
md/raid:md4: Operation continuing on 9 devices.
scsi 5:0:22:0: [sdw] Unhandled error code
scsi 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
scsi 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b8 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982693888
scsi 5:0:22:0: [sdw] Unhandled error code
scsi 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
scsi 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 bc 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982694912
mpt2sas1: removing handle(0x0021), sas_addr(0x500304800182694c)

9
Önemli soruları sormaya başlamak için +1 +1
Sven

Ekranı olmayan kötü bir kablo, sağlama toplamlarıyla ilgili sorunlara neden olabilir. [böylece okuma ve yazma sorunlarına neden olur]. Kabloları değiştirmeyi denediniz mi?
monksy

Kablolar bilinen mallarla değiştirildi. Ayrıca scsi veri yolunu sıfırladıktan sonra Linux'un komutu yeniden denemesini beklerdim.
Ole Tange

2
Şimdiye kadar kazmayı başardığımdan, mesajlar SMART uyarıları değil bağlantı sorunları olduğunu gösteriyor. Belki de kapsamlı BiY deneyimi olan başka biri yardımcı olabilir. Tek bildiğim, SAS'a kıyasla komutların / kuyrukların olmaması nedeniyle büyük kurulumlarda S-ATA disklerinden uzak durmaları. Birkaç taneden buna bir göz atmasını isteyeceğim.
pauska

@pauska Kazdıklarınızı ayrıntılarıyla (bağlantılarla?) açıklayabilir misiniz?
Ole Tange

Yanıtlar:


1

Burada bilgi eksik. Bu depolama kurulumunda sunucu başına 24-45 diskiniz olmasını öneriyorsunuz.

  • Hangi özel denetleyicileri kullanıyorsunuz?
  • Disk sayısı nedeniyle, harici bir kasada bazı sürücüler olabilir. Lütfen kullanımdaki harici sürücü kasasının markasını / modelini sağlayın.
  • Hangi belirli sürücü modellerini kullanıyorsunuz? Are tüm diskleri masaüstü dereceli sürücülerin?
  • Hangi dosya sistemini kullanıyorsunuz?
  • Diski ve RAID mizanpajını tanımlayın.
  • Bu her zaman bir sorun muydu, yoksa zamanla mı gelişti?
  • olan Supermicro bu kurulumunda hiçbir yerinde yer?

Kasa kurulumuna bağlı olarak SATA zaman aşımı veya veri yolu hataları ile karşılaşıyor olabilirsiniz. Bunun , denetleyiciye bağlı tüm sürücüler üzerinde kötü bir etkisi olabilir .

Başka bir sorun da SAS / SATA bağlantısının zayıf olması olabilir. Bunu 1.5Gbps ve 6.0Gbps sürücüler aynı kartta karıştırıldığında bazı SAS genişleticilerde kesinlikle yaşadım.

Lütfen daha fazla bilgi verin.


Supermicro hakkındaki sorunuzla çok ilgileniyorum. Detaylandırabilir misin?
Halfgaar

@Halfgaar Sorduğum diğer sorular hakkında geri bildirim verebilir misiniz?
ewwhite

Orijinal yazı benim değil. Sadece bu ifadeyi merak ediyorum.
Halfgaar

1
@Halfgaar Ooops ... Pekala, Supermicro SAS'ın genişletilmiş / arka planlarda olduğunu ve bazı JBOD kasalarının pek çok durumda öngörülebilir davranmadığını gördüm. SAS / SATA hız küçültme ve bağlantı görüşmesi hakkındaki cevabımdaki not, Supermicro dişlisinin sadece bazı revizyonlarında yaşadığım bir şey. Ayrıca sakat davranışları nedeniyle JBOD'larını artık ZFS için kullanamıyorum.
ewwhite
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.