ZFS için oldukça yeniyim ve 8 sürücülü basit bir yansıtılmış depolama havuzu kurulumum var. Birkaç hafta çalıştıktan sonra, bir sürücü çok fazla hata üretti, bu yüzden değiştirdim.
Birkaç hafta daha geçin ve şimdi havuzun her yerinde küçük hatalar görüyorum ( zpool status
aşağıdaki çıktıya bakın). Bu konuda endişelenmeli miyim? Hatanın sürücünün değiştirilmesi gerektiğini gösterip göstermediğini nasıl belirleyebilirim?
# zpool status
pool: storage
state: ONLINE
status: One or more devices has experienced an unrecoverable error. An
attempt was made to correct the error. Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
using 'zpool clear' or replace the device with 'zpool replace'.
see: http://zfsonlinux.org/msg/ZFS-8000-9P
scan: scrub repaired 22.5K in 1h18m with 0 errors on Sun Jul 10 03:18:42 2016
config:
NAME STATE READ WRITE CKSUM
storage ONLINE 0 0 0
mirror-0 ONLINE 0 0 0
enc-a ONLINE 0 0 2
enc-b ONLINE 0 0 0
mirror-1 ONLINE 0 0 0
enc-c ONLINE 0 0 0
enc-d ONLINE 0 0 2
mirror-2 ONLINE 0 0 0
enc-e ONLINE 0 0 2
enc-f ONLINE 0 0 1
mirror-3 ONLINE 0 0 0
enc-g ONLINE 0 0 0
enc-h ONLINE 0 0 3
errors: No known data errors
ZFS bana "Cihazın değiştirilmesi gerekip gerekmediğini belirle ..." mesajını veriyor ancak bunu nasıl yapacağımdan emin değilim. Yararlı ama tam olarak sonuçlanan referans makaleyi okudum.
Etkilenen sürücüler için SMART test sonuçlarına baktım ve hiçbir şey bana atlanmadı (tüm testler hatasız tamamlandı), ancak yardımcı olursa SMART verilerini de gönderebilirim.
Güncelleme: Memtest86 + 'da yeniden başlatmaya hazırlanırken, konsolda birçok hata fark ettim. Normalde SSH içeri girdim, bu yüzden daha önce görmedim. Hangi günlüğü kontrol etmem gerektiğinden emin değilim, ancak tüm ekran böyle görünen hatalarla doluydu (tam hata satırım değil, sadece farklı bir forumdan kopyaladım):
blk_update_request: I/0 error, dev sda, sector 220473440
Bazı Google çalışanlarından, bu hata kötü bir sürücünün göstergesi olabilir gibi görünüyor, ancak hepsinin aynı anda başarısız olduklarına inanmak zor. Buradan nereye gidileceğine dair düşünceler?
Güncelleme 2: Sorunumla ilgili gibi görünen bu ZOL sorunuyla karşılaştım . OP gibi orada sürücülerimi aşağı çekmek için hdparm kullanıyorum ve benzer ZFS sağlama toplamı hataları ve blk_update_request
hataları görüyorum . Makinem hala Memtest çalışıyor, bu yüzden şu anda çekirdek veya ZFS sürümümü kontrol edemiyorum, ancak bu en azından bir olasılık gibi görünüyor. Bir nevi cesaret kırıcı olan bu benzer soruyu da gördüm . ZFS ile ilgili sorunlar ve sürücülerin azaltılmasıyla ilgili birileri bilen var mı?
Güncelleme 3: LSI denetleyicisindeki uyumsuz bir ürün yazılımı ve sürücü sürümü böyle hatalara neden olabilir mi? Görünüşe göre 20.100.00.00 sürücü sürümünü ve 17.00.01.00 ürün yazılımı sürümünü çalıştırıyorum. Kartta güncellenmiş ürün yazılımını flash etmeye çalışmak zaman ayırmaya değer mi?
# modinfo mpt2sas
filename: /lib/modules/3.10.0-327.22.2.el7.x86_64/kernel/drivers/scsi/mpt2sas/mpt2sas.ko
version: 20.100.00.00
license: GPL
description: LSI MPT Fusion SAS 2.0 Device Driver
author: Avago Technologies <MPT-FusionLinux.pdl@avagotech.com>
rhelversion: 7.2
srcversion: FED1C003B865449804E59F5
# sas2flash -listall
LSI Corporation SAS2 Flash Utility
Version 20.00.00.00 (2014.09.18)
Copyright (c) 2008-2014 LSI Corporation. All rights reserved
Adapter Selected is a LSI SAS: SAS2308_2(D1)
Num Ctlr FW Ver NVDATA x86-BIOS PCI Addr
----------------------------------------------------------------------------
0 SAS2308_2(D1) 17.00.01.00 11.00.00.05 07.33.00.00 00:04:00:00
Güncelleme 4:dmesg
Çıktıda bazı hatalar daha var . Bunları neyin tetiklediğinden emin değilim, ancak LSI denetleyicisinin bellenimini güncellemeye hazırlanırken dizideki tüm sürücüleri kaldırdıktan sonra onları fark ettim. Bellenim güncellemesinin sorunu çözüp çözmediğini görmek için biraz bekleyeceğim, ancak bu arada hatalar. Ne anlama geldiklerinden emin değilim.
[87181.144130] sd 0:0:2:0: [sdc] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87181.144142] sd 0:0:2:0: [sdc] CDB: Write(10) 2a 00 35 04 1c d1 00 00 01 00
[87181.144148] blk_update_request: I/O error, dev sdc, sector 889461969
[87181.144255] sd 0:0:3:0: [sdd] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87181.144259] sd 0:0:3:0: [sdd] CDB: Write(10) 2a 00 35 04 1c d1 00 00 01 00
[87181.144263] blk_update_request: I/O error, dev sdd, sector 889461969
[87181.144371] sd 0:0:4:0: [sde] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87181.144375] sd 0:0:4:0: [sde] CDB: Write(10) 2a 00 37 03 87 30 00 00 08 00
[87181.144379] blk_update_request: I/O error, dev sde, sector 922978096
[87181.144493] sd 0:0:5:0: [sdf] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87181.144500] sd 0:0:5:0: [sdf] CDB: Write(10) 2a 00 37 03 87 30 00 00 08 00
[87181.144505] blk_update_request: I/O error, dev sdf, sector 922978096
[87191.960052] sd 0:0:6:0: [sdg] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87191.960063] sd 0:0:6:0: [sdg] CDB: Write(10) 2a 00 36 04 18 5c 00 00 01 00
[87191.960068] blk_update_request: I/O error, dev sdg, sector 906238044
[87191.960158] sd 0:0:7:0: [sdh] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87191.960162] sd 0:0:7:0: [sdh] CDB: Write(10) 2a 00 36 04 18 5c 00 00 01 00
[87191.960179] blk_update_request: I/O error, dev sdh, sector 906238044
[87195.864565] sd 0:0:0:0: [sda] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87195.864578] sd 0:0:0:0: [sda] CDB: Write(10) 2a 00 37 03 7c 68 00 00 20 00
[87195.864584] blk_update_request: I/O error, dev sda, sector 922975336
[87198.770065] sd 0:0:1:0: [sdb] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87198.770078] sd 0:0:1:0: [sdb] CDB: Write(10) 2a 00 37 03 7c 88 00 00 20 00
[87198.770084] blk_update_request: I/O error, dev sdb, sector 922975368
Güncelleme 5: LSI denetleyicisinin ürün yazılımını güncelledim, ancak ZFS hatalarını temizledikten ve fırçaladıktan sonra aynı davranışı görüyorum (birkaç sürücüde küçük sağlama toplamı hataları). Bir sonraki adım, sürücülerdeki bellenimi güncellemek olacaktır.
Güncelleme 6: Bazı forumlarda U-NAS NSC800 davasına sahip diğer kişilerin sağlanan yükseltici ile ilgili sorunları olduğunu okuduktan sonra PCI yükselticiyi değiştirdim. Sağlama toplamı hataları üzerinde hiçbir etkisi yoktu. İşlemin böyle bir acı olduğu için HDD ürün yazılımı güncellemesini kaldırıyorum, ancak sanırım onu emip önyüklenebilir bir DOS flash sürücüsü yapmanın zamanı geldi.
Güncelleme 7: Seagate disklerinin üçündeki bellenimi güncelledim. Diğer sürücüler ya bir ürün yazılımı güncellemesine sahip değildi ya da onu alamadım (Western Digital, sürücüm için herhangi bir ürün yazılımı güncellemesi olmadığını söyledi). İlk fırçalamadan sonra hata oluşmadı, ancak sorunu çözdüğünü söylemeden önce en az bir iki hafta vereceğim. Üç sürücüdeki bellenimin tüm havuzu bu şekilde etkileyebileceği pek olası görünmüyor.
Güncelleme 8: Sağlama toplamı hataları, önceki gibi geri döndü. Anakart için bir ürün yazılımı güncellemesine bakabilirim, ancak bu noktada kaybım var. Kalan fiziksel bileşenleri (denetleyici, arka panel, kablolama) değiştirmek zor / pahalı olacak ve kurulumumla ilgili bir sorun olmadığından% 100 emin değilim (ZFS + Linux + LUKS + Boştaki sürücüleri aşağı doğru döndürme). Başka fikirleri bekliyoruz.
Güncelleme 9: Bunu hala takip etmeye çalışıyorum. Durumumla benzerlikleri olan bu soruya rastladım . Bu yüzden, devam ettim ve sorunun çözülüp çözülmeyeceğini ashift=12
görmek için zpool'u yeniden inşa ettim (şans yok). Sonra mermiyi ısırdım ve yeni bir kontrolör aldım. Bir Supermicro AOC-SAS2LP-MV8 HBA kartı taktım . Sorunu çözüp çözmediğini görmek için bir iki hafta vereceğim.
Güncelleme 10: Sadece kapatmak için. Yeni HBA kartının içeri girmesinden bu yana yaklaşık 2 hafta geçti ve jinxing riski altında, o zamandan beri sağlama toplamı hatalarım olmadı. Bunu çözmeme yardım eden herkese çok teşekkürler.