Devam eden mpt2sas syslog mesajlarının şifresini çözme


15

özet

Bazı yeni donanımlar kurduğumdan beri bu şifreli mesajları syslog'da alıyorum ve sorunun ne olduğunu, ciddi olup olmadığını veya ne yapılacağını anlayamıyorum.

Yeni SATA HBA'dan geliyorlar ve bir kalıp izliyorlar. 5-30 saniye sonra ilk mesajın birkaçını ve ardından ikinci mesajın birkaçını alacağım. Hepsi aynı saniyede kaydedilen lekeler halinde gelirler ve her birinin kesin miktarı yaklaşık 2 ila 35 arasında değişir. Girişlerin görünüşleri arasında dakikalar veya saatler olabilir.

İki mesaj örneği:

Jul 13 06:06:23 durandal kernel: [366918.435596] mpt2sas0: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Jul 13 06:06:28 durandal kernel: [366923.145524] mpt2sas0: log_info(0x31110d01): originator(PL), code(0x11), sub_code(0x0d01)

Her zaman 0x31120303 ve ardından 0x31110d01 olur.

mpt2sas Ben kullandığım SATA ana bilgisayar veri yolu bağdaştırıcısı için sürücü ama hata içeriği aşırı şifreli. Sorunun ne olduğunu, hangi disk veya bağlantı noktasının olduğunu veya ne kadar ciddi olduğunu söylemiyor.

Donanım

Xeon E3-1220 ve 8GB RAM ile Supermicro X9SCL .

Supermicro CSE-M35T-1B disk tepsisi setine bağlı LSI SAS2008 tabanlı Supermicro AOC-USAS2-L8I SAS / SATA HBA . Üç adet Western Digital WD30EZRX ve iki adet Segate ST3000DM001 takılı. Tüm 3 TB diskler (gerçekte aynı sayıda sektör). Kullanılan bağlantı noktası genişletici yok.

HBA, disk tepsileri ve 4 sürücü yenidir. WD30EZRX'lerden biri aylardır var, sorun yaşamadım. Önceden tümleşik Intel SATA denetleyicisine bağlanmış olsaydı, bu yeni kurulumla sürücü bölmelerine taşıdı.

HBA'nın sık sık sıfırlanması ve gerçekten korkunç bir performans elde etmesi ile ilgili problemler vardı. Firmware / bios'u Supermicro'dan temin edilebilen en son sürüm olan "Faz 12" olarak güncelledi ve tipini IT olarak değiştirdi (yani tüm yazılım baskını kullanacağımdan beri entegre baskın için IR'den geçiş): 2008IT12.FW. Bu güncelleştirme tüm erken sorunları temizledi ve daha sonraya kadar yukarıdaki mesajları almaya başlamamıştım (aşağıya bakın).

Eklediğim ilk dört diskin tümü ilk SFF-8087 bağlantı noktasında (4 SATA kablosuna bölünmüş). Eklediğim en son disk önemliyse diğer bağlantı noktasındadır.

Sistemdeki diğer tek disk işletim sistemini içerir ve tümleşik SATA denetleyicisine takılı daha eski bir Intel 80GB SSD'dir.

Yazılım

Ubuntu 11.10 (oneiric). Linux 3.0.0-14 sunucusu x86_64. İşletim sistemi ile birlikte gelen mpt2sas sürücüsünü kullanma.

Bu beş diskle Linux MD kullanarak bir RAID6 dizisi oluşturmaya çalışıyorum. İki Segates ve yeni WD sürücülerden biri olan 3 diskten oluşan dejenere bir dizi ile başlar. Bu hızlı ve çok iyi gitti, firmware güncellemesini yaptıktan sonra günlüklerde mesaj yok. Bu arada, hala aynı denetleyicinin 0 numaralı bağlantı noktasında eski WD diskini kullanıyorum.

Diğer yeni WD diski diziye ekledi. Yeniden oluşturmaya başladım ve bu mesajları düzenli olarak sistem günlüğüne alıyorum. Diziye bir disk eklemenin ne kadar sürdüğünden emin değilim, ancak tahmini süre (cat / proc / mdstat), ilk 3 diske kıyasla çok daha uzun, binlerce ila on binlerce dakika arasında değişiyor. WD disklerinin çok daha yavaş olduğunu anlıyorum; Birden fazla disk arızası olasılığını azaltmak için farklı modellerim var ve bunlar en ucuz iki TB modeliydi.

notlar

SMART herhangi bir diskte sorun bildirmez. Hiçbir diskte kaydedilmiş hata yoktur ve hata istatistiklerinin hiçbiri eşiğin yakınında değildir.

Günlüğe kaydedilen iletiler yalnızca son diski ekledikten sonra görünmeye başladı.

Bu sürücüden gelen günlük iletilerine karşılık gelen bir başlık dosyası buldum . İlk ileti, listelenmeyen bir "alt kod" 0303 için bir iptal (kod 12) gibi görünüyor. İkinci mesaj, net olmayan bir nedenden ötürü sıfırlamadır (kod 11). 0303 ve 0d01'in ne anlama geldiğini belirleyebilseydim, bu gerçekten yararlı olurdu.

Bir 5 disk RAID6 4 disk eksik dizi olduğunu biliyorum. 4. diski tümleştirmeyi bitirdikten sonra diziye eski diskin içeriğini kopyalamayı ve sonra diziye de eski diski eklemeyi planlıyorum.

Yanıtlar:


5

Muhtemelen en iyi bahis, diskleriniz arasında ve sas raid kontrolörünüz dahil olmak üzere bir donanım problemidir. Denemenizi tavsiye ederim:

  1. Varsa, satıcılardan gelen teşhis araçlarını çalıştırın
  2. Kabloları kontrol edin / yeniden yerleştirin / değiştirin
  3. donanım bileşenlerini çıkarın ve denetleyicinin kendisi de dahil olmak üzere diskleri raid denetleyicinize bağlayan zincirdeki donanımı değiştirin (yani, sizin için anakartla tümleşik raid'den başka bir şey deneyin).

Çok benzer mesajlar veren iki özdeş Dell PowerEdge R515'ten biri vardı (günlükler mpt2sas0 iletileriyle düzenli olarak dolduruyor, ancak tam sayısal kodlara sahip değilim). Dell'in kendi önyüklenebilir tanılaması bunları "donanım hataları" olarak aldı ve RAID sas arka panelini değiştirmek sorunu çözdü.

Araştırırken, çeşitli mpt2sas0 hata kodlarının ne anlama geldiğine dair kapsamlı bir kaynak bulamadım. Donanım-satıcıya özgü bile olabileceğinden şüpheleniyorum (SAS hakkında daha fazla bilgi sahibi olan birinin bunu onaylaması veya reddetmesi gerekiyor). Bu nedenle hata kodlarınız çok farklı bir şey anlamına gelebilir, ancak SMART temizse, mpt2sas0'ın hata kodlarını rapor etmesinin diğer iyi nedenlerini hayal etmek zordur.

Bu hatalar çok ciddi olabilir. R515'im, 12 disk Ubuntu Linux yazılım baskını 6 ile bir hafta boyunca bu mesajlarla görünüşte iyi çalıştı, ancak aniden 12 diskin tümünü kırık (!) Olarak diziden çıkardı.

Ayrıca benim durumumda tüm diskler için SMART tamamen temiz. İyi bir kontrol akıllı bir kendi kendine teşhis testidir: smartctl -t long /dev/sdXve ardından bir gün sonra sonuçları kontrol edin smartctl -l selftest /dev/sdX. Her şey yolundaysa, test söylemeli Completedve LBA_first_errsütun boş olmalıdır.


Not: RAID denetleyicisi (gerçekten HBA) zaten ayrı bir karttır. Yerleşik SATA denetleyicisi iyi çalışıyor. Sipariş üzerine yedek bir SFF-8087 kablom var, yarın burada olmalı. Bu noktada en büyük şüphelim bu.
Chris Smith

Kötü kablo sorun oldu! Her ikisini de (iki SFF portu) daha yüksek kaliteli kablolarla değiştirdim ve o zamandan beri problem yaşamadım! Cevabınızı en uzun olduğu ve kötü bir kablo önerdiği için kabul ediyorum. PS Kesinlikle uzun SMART testlerini yaptım; disklerin hiçbirinde sorun yok.
Chris Smith

Sorunu bulduğunuzu duymak güzel. Kabul için teşekkürler.
Rickard Armiento

Benim için, Dell PowerEdge platformunda da bu sorunu daha önce karşıladığım gerçekten garip. Aynı sonuç kablolarda da oldu ...
Mazeryt

4

Vay be, zor biri.

Bu , cihazlarınızdan birinin ağır yük altında olması nedeniyle 0x31120303'ün bir veri yolu sıfırlaması olduğunu gösteriyor. Ayrıca, endişelenmenize gerek olmadığını söylüyor. (Haha, evet doğru.)

Bu , cihazlarınızdan birinin komutlara yanıt vermesinin çok uzun sürdüğü için bu günlük mesajlarının gerçekleşmekte olduğunu gösterir. Bu aynı şeyi söyler ve ayrıca ağır yük altında meydana geldiğini gösterir.

Bu tam bir cevap olmasa da, umarım faydalı bir yöne yönlendirirsiniz.


Bu gönderilerden bazılarını gördüm ama mesajın tam olarak ne olduğunu bulamadım. Kötü bir SFF-8087-> SATA kablosu olduğu ortaya çıktı. Yardım için teşekkürler!
Chris Smith

0

Bu, diskte bazı hatalarınız olduğu anlamına gelir, LSI'dan SAS denetleyicisindeki bir SATA diskidir ve hata nedeniyle tüm bekleyen istekler iptal edilmiştir.

Çoğu durumda diskte bu hatanın tetikleyicisi olan orta bir hata vardır. Bu hata tek başına orta düzey bir hata anlamına gelmez ve orijinal disk hatasının kaynağının ne olduğunu bulmak için günlükleri diğer ipuçlarını kontrol etmeniz gerekir.

Biraz daha ayrıntılı sürüm: http://blog.disksurvey.org/blog/2014/03/27/sata-handling-of-medium-errors-log-info-0x0x31080000/


İlginç yazı, paylaştığın için teşekkürler! SATA berbat bir protokoldür, ancak diskler ucuzdur ve ihtiyacım olanı yapar. Arızalı kabloyu değiştirdiğim için mesaj yeniden görünmedi.
Chris Smith

1
Daha fazla çözme LSI Loginfo onu deşifre etmek için oluşturduğum bir yardımcı program aracılığıyla bulunabilir: blog.disksurvey.org/blog/2014/08/10/decoding-lsi-loginfo-codes
Baruch Hatta
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.