özet
Bazı yeni donanımlar kurduğumdan beri bu şifreli mesajları syslog'da alıyorum ve sorunun ne olduğunu, ciddi olup olmadığını veya ne yapılacağını anlayamıyorum.
Yeni SATA HBA'dan geliyorlar ve bir kalıp izliyorlar. 5-30 saniye sonra ilk mesajın birkaçını ve ardından ikinci mesajın birkaçını alacağım. Hepsi aynı saniyede kaydedilen lekeler halinde gelirler ve her birinin kesin miktarı yaklaşık 2 ila 35 arasında değişir. Girişlerin görünüşleri arasında dakikalar veya saatler olabilir.
İki mesaj örneği:
Jul 13 06:06:23 durandal kernel: [366918.435596] mpt2sas0: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Jul 13 06:06:28 durandal kernel: [366923.145524] mpt2sas0: log_info(0x31110d01): originator(PL), code(0x11), sub_code(0x0d01)
Her zaman 0x31120303 ve ardından 0x31110d01 olur.
mpt2sas Ben kullandığım SATA ana bilgisayar veri yolu bağdaştırıcısı için sürücü ama hata içeriği aşırı şifreli. Sorunun ne olduğunu, hangi disk veya bağlantı noktasının olduğunu veya ne kadar ciddi olduğunu söylemiyor.
Donanım
Xeon E3-1220 ve 8GB RAM ile Supermicro X9SCL .
Supermicro CSE-M35T-1B disk tepsisi setine bağlı LSI SAS2008 tabanlı Supermicro AOC-USAS2-L8I SAS / SATA HBA . Üç adet Western Digital WD30EZRX ve iki adet Segate ST3000DM001 takılı. Tüm 3 TB diskler (gerçekte aynı sayıda sektör). Kullanılan bağlantı noktası genişletici yok.
HBA, disk tepsileri ve 4 sürücü yenidir. WD30EZRX'lerden biri aylardır var, sorun yaşamadım. Önceden tümleşik Intel SATA denetleyicisine bağlanmış olsaydı, bu yeni kurulumla sürücü bölmelerine taşıdı.
HBA'nın sık sık sıfırlanması ve gerçekten korkunç bir performans elde etmesi ile ilgili problemler vardı. Firmware / bios'u Supermicro'dan temin edilebilen en son sürüm olan "Faz 12" olarak güncelledi ve tipini IT olarak değiştirdi (yani tüm yazılım baskını kullanacağımdan beri entegre baskın için IR'den geçiş): 2008IT12.FW. Bu güncelleştirme tüm erken sorunları temizledi ve daha sonraya kadar yukarıdaki mesajları almaya başlamamıştım (aşağıya bakın).
Eklediğim ilk dört diskin tümü ilk SFF-8087 bağlantı noktasında (4 SATA kablosuna bölünmüş). Eklediğim en son disk önemliyse diğer bağlantı noktasındadır.
Sistemdeki diğer tek disk işletim sistemini içerir ve tümleşik SATA denetleyicisine takılı daha eski bir Intel 80GB SSD'dir.
Yazılım
Ubuntu 11.10 (oneiric). Linux 3.0.0-14 sunucusu x86_64. İşletim sistemi ile birlikte gelen mpt2sas sürücüsünü kullanma.
Bu beş diskle Linux MD kullanarak bir RAID6 dizisi oluşturmaya çalışıyorum. İki Segates ve yeni WD sürücülerden biri olan 3 diskten oluşan dejenere bir dizi ile başlar. Bu hızlı ve çok iyi gitti, firmware güncellemesini yaptıktan sonra günlüklerde mesaj yok. Bu arada, hala aynı denetleyicinin 0 numaralı bağlantı noktasında eski WD diskini kullanıyorum.
Diğer yeni WD diski diziye ekledi. Yeniden oluşturmaya başladım ve bu mesajları düzenli olarak sistem günlüğüne alıyorum. Diziye bir disk eklemenin ne kadar sürdüğünden emin değilim, ancak tahmini süre (cat / proc / mdstat), ilk 3 diske kıyasla çok daha uzun, binlerce ila on binlerce dakika arasında değişiyor. WD disklerinin çok daha yavaş olduğunu anlıyorum; Birden fazla disk arızası olasılığını azaltmak için farklı modellerim var ve bunlar en ucuz iki TB modeliydi.
notlar
SMART herhangi bir diskte sorun bildirmez. Hiçbir diskte kaydedilmiş hata yoktur ve hata istatistiklerinin hiçbiri eşiğin yakınında değildir.
Günlüğe kaydedilen iletiler yalnızca son diski ekledikten sonra görünmeye başladı.
Bu sürücüden gelen günlük iletilerine karşılık gelen bir başlık dosyası buldum . İlk ileti, listelenmeyen bir "alt kod" 0303 için bir iptal (kod 12) gibi görünüyor. İkinci mesaj, net olmayan bir nedenden ötürü sıfırlamadır (kod 11). 0303 ve 0d01'in ne anlama geldiğini belirleyebilseydim, bu gerçekten yararlı olurdu.
Bir 5 disk RAID6 4 disk eksik dizi olduğunu biliyorum. 4. diski tümleştirmeyi bitirdikten sonra diziye eski diskin içeriğini kopyalamayı ve sonra diziye de eski diski eklemeyi planlıyorum.