Bir sunucunun sabit diskini hata yapmadan önce değiştirmenin bir nedeni var mı?


11

Sadece hızlı bir soru: Bir sunucunun sabit diskini hata yapmadan önce x yıl sonra değiştirmek için bir neden var mı (sonunda bir noktada olacak) ya da arızalanıncaya kadar bırakmalı mıyım? Gerçek sunucu yönetimi ile çok az deneyimim var, bu yüzden merak ediyorum ...


Pek çok cevap almayı beklemiyordum, vay :) Hepsini inceledikten ve a) Sunucunun sabit diskleri bu amaçlar için yeterli b) Yedekleme kesinlikle garanti edilir (RAID + Çoğaltma Slave + günlük yedekleme kullanarak bir sürücü değişikliği önermek için hiçbir neden bulamıyorum. Herkese teşekkürler!
Spiros

Yanıtlar:


8

Bunu değiştirmek için harika bir neden, bir şeyler ters gitme olasılığını arttırırken yapılacaklar listenize başka bir görev eklemek istiyorsanız.

Şaka bir yana, sürücüyü önceden değiştirmek için duyduğum hiçbir neden yok. Yerinde RAID varsa, zaten korumanız var (iyi yedekleriniz olduğunu varsayarak) ve atmak için ölü bir sürücü şeklinde atık malzeme üretmiyorsunuz ve ortadan kaldırmak için gereksiz yere çalışmanız gerekmiyor hassas veriler. Yeni sürücülere fazladan para harcamazsınız ve yine de yine de yanlış gidebilecek şeylere karşı, proaktif bir şekilde koruma yapmayacaksınız, örneğin bir sürücü hata kaynağı olarak yaygın olmayan ancak gerçekleşebilecek hatalı bir sürücü denetleyicisi gibi.

Öte yandan bu, RAID 5 ile yaptığımız gibi RAID biriminde alarmları tetiklemeyen kurtarılamayan sürücü hatalarını keşfetmenize yardımcı olabilir. bu durumda, uygun bir yedekleme kurtarmanıza yardımcı olacaktır.) Günümüzün daha büyük sürücü kapasitelerini ve kurtarılamayan hata toleranslarını dikkate alan bir RAID seviyesi, olmasa da yedekler günü kurtarmamıza yardımcı olacaktır.

Çoğu yöneticinin iyi bir RAID ve yedekleme planı vardır, bu nedenle sürücüleri gereksiz yere değiştirerek fazladan atık üretmeye gerek yoktur.


6

Bunu düşünebileceğim tek zaman, aynı gruptan bir sürü diskim olsaydı ve toplu işteki diğerleri başarısız olmaya başladıysa, o zaman düşünebilirim.

Eğer uzayda sıkı olsaydım, eminim, yapardım - ama sadece yaşlanmasından başka bir sebep yok mu? Hayır, çünkü ortalama olarak ilk yıldaki başarısızlık oranı diğer yıllardaki başarısızlık oranına benzer . (grafiğin ilk yılı 3 ay, 6 ay, 1 yıl içinde kırdığını, ancak 1 yılda başarısız olma şansını elde etmek için hepsini bir araya getirmeniz gerektiğini unutmayın). Ve yüksek disk kullanımına bakıldığında, ilk yılda başarısız olması, önümüzdeki üç yılda bir araya gelmekten daha olasıdır.

Geç sürücü hatası için tek korelasyon sıcak odalarda yapıldı ve sunucu odalarımızı serin tutmak.


5

Ben hep proaktif olduğum için yaptım, ama hiç yapmadım ve bunu yapan birini hiç duymadım. Muhtemelen bir çeşit RAID kurulumunuz var ve söz konusu sistem (ler) için düzenli olarak geçerli, geçerli yedeklemeler var.


5
+1, Hiç düşünmedim. Bir diski değiştirmek, her ihtimale karşı ve kasıtlı olarak bir dizi yeniden oluşturmayı tetiklemek, kalan üretim disklerini "kullanmanın" en iyi yolu gibi görünmemektedir. Yeniden oluşturma başarısız olursa, sistemin neden kapalı olduğunu patronunuza açıklamak daha zor olacaktır.
jscott

3
SMART hataları olan diskleri değiştiriyorum, ancak yine de teknik olarak çalışsalar bile başarısız olduklarını düşünürdüm.
Chris S

4

Evet, performans ve kapasite. Eski sabit sürücü 70MB / sn sürekli okuma ve 100 IOPS yaparsa ve potansiyel değiştirme 200MB / sn sürekli okuma ve 175 IOPS yaparsa ve ayrıca 3 kat daha fazla kapasiteye sahipse, yeni sürücüler satın alıp eskisi için takas edebilirsiniz. performans / kapasite nedenleri. (ve bu sayılar tamamen oluşur, önemli olan nokta daha hızlı olabilir).

Şimdi eski sürücülerle ne yaparsınız. Bunları bir test sunucusunda kullanabilir veya disk dizisine yedeklemeye ekleyebilir veya acil yedek olarak tutabilirsiniz. Veya sadece silebilir ve bertaraf etmek için gönderebilirsiniz.

Artık ortalama sunucunuz gün IO işlemci bağlı (veya en azından benim) daha fazla bağlı. Bu nedenle, CPU zamanı veya Bellek sıkıntısı ile ilgili herhangi bir sorunu olmayan gerçekten eski bir sunucunuz varsa, bunları değiştirmek için kolayca satın alabileceğinizin arkasında birkaç nesil olan sabit diskleri değiştirerek performansı önemli ölçüde artıracak alanınız vardır.


3

Sabit sürücü arızası durumunda darbeye bağlıdır.

Eğer bir RAID yoksa
hizmet durdurulabilir çünkü sunucu kullanılabilirliği umurumda değil ya da yüksek kullanılabilirlik ve eğer çünkü ek verilerin bir çalışma yedeği varsa. Tamam diyorum, sürücünün ölmesine ve değiştirmesine ve başarısız olduğunda verileri geri yüklemesine izin verin.
Kullanılabilirliği önemsiyorsanız, RAID kullanın;)

RAID (1, 5, 6, ...) varsa
, sabit disk sürücüyü hatadan önce neden değiştiriyorum? RAID (ve yedekleme) bunun için burada. Bir sabit diski arızalanması durumunda değiştirmek bir şeyi kırma riskidir (baskın yeniden inşası her zaman risklidir)

Ama bu sadece benim görüşüm! Sürücünüzün çok eski olabileceğini düşünüyorsanız sunucunuzu da değiştirmek isteyebilirsiniz.


2

Bazı diskler 1 saat içinde ölürken, diğerleri 2 yıl sürer.

Başarısız veya başarısız değilse (genellikle SMART izleme veya performans sorunları ile kurabileceğiniz bir şey), o zaman atmanın diğer tek nedeni, amaçlarınız için yeterince büyük veya hızlı olmamasıdır.


1
Sadece SMART ile sürücüyü izleyin ve genellikle çok geç olmadan arıza belirtileri gösterecektir.
Prof. Moriarty

@Prof Google'ın toplu disk çalışması SMART'ın "genellikle"% 44-% 72 oranında güvenilir olduğunu gösterdi. static.googleusercontent.com/external_content/untrusted_dlcp/...
jscott

2

Disklerde soru, başarısız olup olmayacağı değil , ne zaman olacağıdır . Mekanik cihazlardır (SSD'leri kullanmadığı sürece, ancak kendi uyarıları vardır), bu yüzden er ya da geç başarısız olurlar.

Disk satıcıları, üretim süreçlerini olabildiğince ucuz olacak şekilde uyarlama eğilimindedir, çünkü disk başına kaydedilen tek bir kuruş bile binlerce üretim ve satış yaparken oldukça önemli olabilir; ancak elbette disklerinin garanti süresi sona ermeden önce arızalanmasını istemezler veya her zaman ücretsiz olarak değiştirirler; bu yüzden garanti kapsamına girdiği sürece sürecekleri kadar mutlu olurlar ... ama tek bir kuruş daha fazla değil.

Sonuç: çoğu disk, garanti süresi bittikten hemen sonra arızalanır. Bu elbette genel bir kural değildir, sadece istatistiktir ve artık ihtiyacınız olmayacak kadar diskiniz şimdi veya sürebilir ... ama istatistiksel olarak, birkaç gün veya ay sonra başarısız olan birçok disk var Garanti süresi doldu.

Tabii ki, hala ihtiyacınız olmadığında yenilerini satın almak pahalıya mal olabilir ... ancak garanti süresi dolduktan sonra yenilerini değiştirmek yine de maliyetli olacaktır.

Şimdi, hala garanti altındayken başarısız olmanın bir yolunu bulabilirseniz (ve süreçte veri kaybetmezseniz, yani iyi RAID VE yedeklere sahipseniz), bu optimal ;-) olur


2

Çalışan bir sürücüyü, çalışan bir güç kaynağını değiştirdiğimden daha fazla değiştirmem. Her ikisi de nihayetinde başarısız olacak, ancak teknik ya da mali olarak, iyi bir neden olmadan onları değiştirmek mantıklı değil. Sorun belirtileri göstermeye başladığında değiştirin.

Sabit diskler söz konusu olduğunda, eğilim, bir disk erken arıza yapacaksa, ilk yıl içinde muhtemelen daha fazla gerçekleşeceğidir. 6 yıldır sorunsuz çalışan sürücüler normal olarak en az birkaç yıl daha çalışmaya devam edebilirler. Açıkçası bu konuda pek çok istisna var ama genel eğilim bu.


1
Bir güç kaynağı kesildiğinde (genellikle) veri kaybetmezsiniz ...
Massimo

1
@Massimo - Doğru, ancak bir sürücüde bir sürücü bozulduğunda genellikle veri kaybetmezsiniz. Bence, fazlalık yoksa, gerçek bir sunucu değil, sadece yüceltilmiş bir iş istasyonudur.
John Gardeniers

1

Ayrıca, çoğu sunucu sınıfı sürücünün daha katı üretim gereksinimlerine sahip olduğunu ve genellikle düşük maliyetli / bütçeli masaüstü sürücülerden daha güvenilir olduğunu unutmayın. Bu nedenle, muhtemelen başarısız olması durumunda 'iyi' bir sürücüyü değiştirmenin tehlikeleri bir yana, bunu büyük bir dizi için yapmak büyük miktarda para ekleyebilir.

Ayrıca, bir RAID kullanırken, bu yüzden sunucuda en az bir etkin yedek bulundurmak iyi bir fikirdir, böylece gerektiğinde yedek satın alıncaya kadar hızlı bir şekilde yeniden oluşturmaya ve sağlıklı kalmaya başlayabilir.


1

Bunu "sıfır kesinti" sistemlerinde yaptım. Gerçekten de, RAID yeniden oluşturulduğunda farklı bir sürücüyü kaybetme olasılığınız ... Bir kez takas ettim, sonra başka bir sürücü yeniden oluşturma sırasında hatalar atmaya başladığında geri takas ettim.

Bu gerçekten bir felsefe sorusu: proaktif stres testine (hem dizinin hem de kardiyovasküler sisteminizin) inanıyorsanız, sürücülerinizi değiştirmelisiniz. Ama gerçekten, hangi sürücünün daha sonra kötüye gideceğini asla bilemezsiniz. Eski, kanıtlanmış sürücülerden herhangi birini kaybetmeden önce yeni değiştirilen sürücüyü kaybedebilmeniz pek olası değildir.

Bununla birlikte, yedekleme çözümümü stres testi için zaman harcıyordum ve gerçekte hata atmaya başlayana kadar sürücüleri huzur içinde bırakardım.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.