ZFS sağlama toplamı hataları, sürücüyü ne zaman değiştiririm?


9

ZFS için oldukça yeniyim ve 8 sürücülü basit bir yansıtılmış depolama havuzu kurulumum var. Birkaç hafta çalıştıktan sonra, bir sürücü çok fazla hata üretti, bu yüzden değiştirdim.

Birkaç hafta daha geçin ve şimdi havuzun her yerinde küçük hatalar görüyorum ( zpool statusaşağıdaki çıktıya bakın). Bu konuda endişelenmeli miyim? Hatanın sürücünün değiştirilmesi gerektiğini gösterip göstermediğini nasıl belirleyebilirim?

# zpool status
  pool: storage
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
        attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
        using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 22.5K in 1h18m with 0 errors on Sun Jul 10 03:18:42 2016
config:

        NAME        STATE     READ WRITE CKSUM
        storage     ONLINE       0     0     0
          mirror-0  ONLINE       0     0     0
            enc-a   ONLINE       0     0     2
            enc-b   ONLINE       0     0     0
          mirror-1  ONLINE       0     0     0
            enc-c   ONLINE       0     0     0
            enc-d   ONLINE       0     0     2
          mirror-2  ONLINE       0     0     0
            enc-e   ONLINE       0     0     2
            enc-f   ONLINE       0     0     1
          mirror-3  ONLINE       0     0     0
            enc-g   ONLINE       0     0     0
            enc-h   ONLINE       0     0     3

errors: No known data errors

ZFS bana "Cihazın değiştirilmesi gerekip gerekmediğini belirle ..." mesajını veriyor ancak bunu nasıl yapacağımdan emin değilim. Yararlı ama tam olarak sonuçlanan referans makaleyi okudum.

Etkilenen sürücüler için SMART test sonuçlarına baktım ve hiçbir şey bana atlanmadı (tüm testler hatasız tamamlandı), ancak yardımcı olursa SMART verilerini de gönderebilirim.

Güncelleme: Memtest86 + 'da yeniden başlatmaya hazırlanırken, konsolda birçok hata fark ettim. Normalde SSH içeri girdim, bu yüzden daha önce görmedim. Hangi günlüğü kontrol etmem gerektiğinden emin değilim, ancak tüm ekran böyle görünen hatalarla doluydu (tam hata satırım değil, sadece farklı bir forumdan kopyaladım):

blk_update_request: I/0 error, dev sda, sector 220473440

Bazı Google çalışanlarından, bu hata kötü bir sürücünün göstergesi olabilir gibi görünüyor, ancak hepsinin aynı anda başarısız olduklarına inanmak zor. Buradan nereye gidileceğine dair düşünceler?

Güncelleme 2: Sorunumla ilgili gibi görünen bu ZOL sorunuyla karşılaştım . OP gibi orada sürücülerimi aşağı çekmek için hdparm kullanıyorum ve benzer ZFS sağlama toplamı hataları ve blk_update_requesthataları görüyorum . Makinem hala Memtest çalışıyor, bu yüzden şu anda çekirdek veya ZFS sürümümü kontrol edemiyorum, ancak bu en azından bir olasılık gibi görünüyor. Bir nevi cesaret kırıcı olan bu benzer soruyu da gördüm . ZFS ile ilgili sorunlar ve sürücülerin azaltılmasıyla ilgili birileri bilen var mı?

Güncelleme 3: LSI denetleyicisindeki uyumsuz bir ürün yazılımı ve sürücü sürümü böyle hatalara neden olabilir mi? Görünüşe göre 20.100.00.00 sürücü sürümünü ve 17.00.01.00 ürün yazılımı sürümünü çalıştırıyorum. Kartta güncellenmiş ürün yazılımını flash etmeye çalışmak zaman ayırmaya değer mi?

# modinfo mpt2sas
filename:       /lib/modules/3.10.0-327.22.2.el7.x86_64/kernel/drivers/scsi/mpt2sas/mpt2sas.ko
version:        20.100.00.00
license:        GPL
description:    LSI MPT Fusion SAS 2.0 Device Driver
author:         Avago Technologies <MPT-FusionLinux.pdl@avagotech.com>
rhelversion:    7.2
srcversion:     FED1C003B865449804E59F5

# sas2flash -listall
LSI Corporation SAS2 Flash Utility
Version 20.00.00.00 (2014.09.18) 
Copyright (c) 2008-2014 LSI Corporation. All rights reserved 

    Adapter Selected is a LSI SAS: SAS2308_2(D1) 

Num   Ctlr            FW Ver        NVDATA        x86-BIOS         PCI Addr
----------------------------------------------------------------------------

0  SAS2308_2(D1)   17.00.01.00    11.00.00.05    07.33.00.00     00:04:00:00

Güncelleme 4:dmesg Çıktıda bazı hatalar daha var . Bunları neyin tetiklediğinden emin değilim, ancak LSI denetleyicisinin bellenimini güncellemeye hazırlanırken dizideki tüm sürücüleri kaldırdıktan sonra onları fark ettim. Bellenim güncellemesinin sorunu çözüp çözmediğini görmek için biraz bekleyeceğim, ancak bu arada hatalar. Ne anlama geldiklerinden emin değilim.

[87181.144130] sd 0:0:2:0: [sdc] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87181.144142] sd 0:0:2:0: [sdc] CDB: Write(10) 2a 00 35 04 1c d1 00 00 01 00
[87181.144148] blk_update_request: I/O error, dev sdc, sector 889461969
[87181.144255] sd 0:0:3:0: [sdd] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87181.144259] sd 0:0:3:0: [sdd] CDB: Write(10) 2a 00 35 04 1c d1 00 00 01 00
[87181.144263] blk_update_request: I/O error, dev sdd, sector 889461969
[87181.144371] sd 0:0:4:0: [sde] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87181.144375] sd 0:0:4:0: [sde] CDB: Write(10) 2a 00 37 03 87 30 00 00 08 00
[87181.144379] blk_update_request: I/O error, dev sde, sector 922978096
[87181.144493] sd 0:0:5:0: [sdf] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87181.144500] sd 0:0:5:0: [sdf] CDB: Write(10) 2a 00 37 03 87 30 00 00 08 00
[87181.144505] blk_update_request: I/O error, dev sdf, sector 922978096
[87191.960052] sd 0:0:6:0: [sdg] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87191.960063] sd 0:0:6:0: [sdg] CDB: Write(10) 2a 00 36 04 18 5c 00 00 01 00
[87191.960068] blk_update_request: I/O error, dev sdg, sector 906238044
[87191.960158] sd 0:0:7:0: [sdh] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87191.960162] sd 0:0:7:0: [sdh] CDB: Write(10) 2a 00 36 04 18 5c 00 00 01 00
[87191.960179] blk_update_request: I/O error, dev sdh, sector 906238044
[87195.864565] sd 0:0:0:0: [sda] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87195.864578] sd 0:0:0:0: [sda] CDB: Write(10) 2a 00 37 03 7c 68 00 00 20 00
[87195.864584] blk_update_request: I/O error, dev sda, sector 922975336
[87198.770065] sd 0:0:1:0: [sdb] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87198.770078] sd 0:0:1:0: [sdb] CDB: Write(10) 2a 00 37 03 7c 88 00 00 20 00
[87198.770084] blk_update_request: I/O error, dev sdb, sector 922975368

Güncelleme 5: LSI denetleyicisinin ürün yazılımını güncelledim, ancak ZFS hatalarını temizledikten ve fırçaladıktan sonra aynı davranışı görüyorum (birkaç sürücüde küçük sağlama toplamı hataları). Bir sonraki adım, sürücülerdeki bellenimi güncellemek olacaktır.

Güncelleme 6: Bazı forumlarda U-NAS NSC800 davasına sahip diğer kişilerin sağlanan yükseltici ile ilgili sorunları olduğunu okuduktan sonra PCI yükselticiyi değiştirdim. Sağlama toplamı hataları üzerinde hiçbir etkisi yoktu. İşlemin böyle bir acı olduğu için HDD ürün yazılımı güncellemesini kaldırıyorum, ancak sanırım onu ​​emip önyüklenebilir bir DOS flash sürücüsü yapmanın zamanı geldi.

Güncelleme 7: Seagate disklerinin üçündeki bellenimi güncelledim. Diğer sürücüler ya bir ürün yazılımı güncellemesine sahip değildi ya da onu alamadım (Western Digital, sürücüm için herhangi bir ürün yazılımı güncellemesi olmadığını söyledi). İlk fırçalamadan sonra hata oluşmadı, ancak sorunu çözdüğünü söylemeden önce en az bir iki hafta vereceğim. Üç sürücüdeki bellenimin tüm havuzu bu şekilde etkileyebileceği pek olası görünmüyor.

Güncelleme 8: Sağlama toplamı hataları, önceki gibi geri döndü. Anakart için bir ürün yazılımı güncellemesine bakabilirim, ancak bu noktada kaybım var. Kalan fiziksel bileşenleri (denetleyici, arka panel, kablolama) değiştirmek zor / pahalı olacak ve kurulumumla ilgili bir sorun olmadığından% 100 emin değilim (ZFS + Linux + LUKS + Boştaki sürücüleri aşağı doğru döndürme). Başka fikirleri bekliyoruz.

Güncelleme 9: Bunu hala takip etmeye çalışıyorum. Durumumla benzerlikleri olan bu soruya rastladım . Bu yüzden, devam ettim ve sorunun çözülüp çözülmeyeceğini ashift=12görmek için zpool'u yeniden inşa ettim (şans yok). Sonra mermiyi ısırdım ve yeni bir kontrolör aldım. Bir Supermicro AOC-SAS2LP-MV8 HBA kartı taktım . Sorunu çözüp çözmediğini görmek için bir iki hafta vereceğim.

Güncelleme 10: Sadece kapatmak için. Yeni HBA kartının içeri girmesinden bu yana yaklaşık 2 hafta geçti ve jinxing riski altında, o zamandan beri sağlama toplamı hatalarım olmadı. Bunu çözmeme yardım eden herkese çok teşekkürler.


2
Bize donanım hakkında daha fazla bilgi verebilir misiniz? Bu hataların birden fazla sürücüde bulunması, bir arka panel / denetleyici / kablolama sorununu bir disk sorunundan daha fazla gösterir.
ewwhite

Bunu düşünmemiştim. Sürücüler, yerleşik SATA / SAS arka paneliyle birlikte gelen bir U-NAS NSC-800 kasasında bulunur . LSI SAS 9207-8i HBA'ya 2 mini sas konektörü ile bağlanır . Bu, kasa ile birlikte gelen bir PCI yükseltici üzerinden bir Supermicro MBD-X10SDV-4C'ye bağlanır .
Dominic P

1
RAM'iniz iyi mi? Bir bellek modülü kötü olduğunda benzer hatalar yaşadım - disk hataları yok, ancak tüm sürücülerdeki bazı (düşük) sağlama toplamı hataları.
user121391

1
Denetleyicinin bu noktada bariz bir şekilde açık olması büyük olasılıktır. Aslında "Güncelleme 4" ile bir süre önce bariz bir şekilde belliydi.
Michael Hampton

1
Hoş geldiniz @ hak8or. Bu sitedeki insanlar bana çok yardımcı oldu, bu yüzden örneğimin başka birine yardımcı olabileceğini duymak güzel.
Dominic P

Yanıtlar:


6

Bu hataların birden fazla sürücüde bulunması, bir arka panel / denetleyici / kablolama sorununu bir disk veya RAM sorunundan daha fazla gösterir.


Yardım için teşekkürler. Şu anda tüm bu bileşenleri değiştiremiyorum. Nasıl daraltabileceğime veya en olası suçluya ilişkin bir öneriniz var mı?
Dominic P

Etkilenen tüm bileşenlerin ürün yazılımı güncellemelerini deneyin. Bu SATA diskleri mi?
ewwhite

Yapacağım, teşekkürler. Ürün yazılımı ve sürücü sürümlerinin eşleşmesi gereken başka bir yerde gördüğüm için denetleyicideki ürün yazılımı güncellemesiyle başlayacağım (sorumun 3. güncellemesine bakın). Evet, hepsi 1 TB SATA diskler ve smartctlkullandığım bazı Seagate diskleri için mevcut bir ürün yazılımı güncellemesi olduğunu hatırlıyorum , bu yüzden onları da güncelleyeceğim.
Dominic P

7

Genel kuralım, hatalar beklenmedik şekilde artmaya devam ederse diskin değiştirilmesi gerekiyor; statikse, hataya neden olan geçici bir durum olabilir ve sistem sorunlara neden olan koşulları yeniden üretmiyor olabilir.

Birkaç sağlama toplamı hatası, sürücüyle mekanik olarak kötü bir şey göstermeyebilir (bit çürümesi olur, ZFS sadece diğer dosya sistemleri algılanmazken algılar), ancak bu hatalar bir saat boyunca meydana gelirse, bir yıl boyunca olanlardan çok farklı bir durum.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.