disk dolana kadar gün hesaplanıyor


9

Zaman içinde disk kullanım geçmişini izlemek için grafit kullanıyoruz. Uyarı sistemimiz, boş alan belirli sayıda bloğun altına düştüğünde bizi uyarmak için grafitten gelen verilere bakar.

Daha akıllı uyarılar almak istiyorum - gerçekten umursadığım şey "boş alan hakkında bir şey yapmadan önce ne kadar sürem var?", Örneğin trend 7 gün içinde diskim tükendiğini gösteriyorsa boşluk sonra bir Uyarı yapın, eğer 2 günden azsa bir Hata yükseltin.

Grafitin standart gösterge paneli arayüzü, türevler ve Holt Winters Güven bantları ile oldukça akıllı olabilir, ancak şimdiye kadar bunu işlem yapılabilir metriklere dönüştürmenin bir yolunu bulamadım. Ben de başka şekillerde numaraları crunching ile iyiyim (sadece grafit ham sayıları ayıklamak ve bunu yapmak için bir komut dosyası çalıştırmak).

Bir sorun, grafiğin düzgün olmamasıdır - dosyalar eklenir ve kaldırılır, ancak zaman içindeki genel eğilim disk alanı kullanımının artmasıdır, bu nedenle belki de yerel minimum değerlere ("disksiz" metriğe bakıyorsanız) ihtiyaç vardır. ) ve oluklar arasında bir eğilim çizin.

Bunu yapan var mı?


Altyapınız nedir? örneğin bir vmware evi iseniz, disk alanı üzerinde bu tür öngörülü görünüm yapan Operations Manager ürünlerine bakabilirsiniz.
Chopper3

The volume of crap people have to store will expand to fill the disk available.- Old Sysadmin Axiom
voretaq7

Sunucularımız, diskler için IBM XIV kullanan VMware VM'ler ile yerel SD kullanan KVM'ler arasında bölünmüştür. Bu tür bilgilere erişebileceğimizden emin değilim (ekibim VMware veya XIV'ü yönetmiyor) ve üründen bağımsız bir çözümü tercih eder.
Amos Shapira

Yanıtlar:


8

Dürüst olmak gerekirse "Doluya Kadar Günler" gerçekten berbat bir metrik -% 100 kullanıma yaklaştıkça dosya sistemleri GERÇEKTEN KOLAY.
Geleneksel% 85,% 90,% 95 eşiklerini kullanmanızı öneririm (uyarı, alarm ve bunu düzeltmek için gerçekten ihtiyaç duyduğunuz kritik önemde) - bu size modern disklerde çok fazla uyarı süresi vermelidir. (diyelim ki 1 TB'lık bir disk: bir terabaytın% 85'i hala size çok fazla alan bırakıyor, ancak potansiyel bir sorunun farkındasınız,% 90'a kadar bir disk genişletmesi veya başka bir azaltma planlamalısınız ve bir terabaytın% 95'inde 50 GB kaldı ve hareket halindeyken iyi düzeltin).

Bu aynı zamanda dosya sisteminizin az ya da çok en iyi şekilde çalışmasını sağlar: büyük dosyalar oluşturma / değiştirme / taşıma ile ilgilenmek için bol miktarda boş alana sahiptir.

Diskleriniz modern değilse (veya kullanım düzeniniz diske atılan daha fazla miktarda veri içeriyorsa) eşikleri kolayca ayarlayabilirsiniz.


Hâlâ "güne kadar dolu" metrik kullanmaya ayarlıysanız, verileri grafitten çıkarabilir ve üzerinde biraz matematik yapabilirsiniz. IBM'in izleme araçları birkaç gün öncesine kadar metrikleri uygular, bu da size nasıl uygulanacağına dair bir fikir verebilir, ancak temel olarak tarihte iki nokta arasındaki değişim oranını alırsınız.

Akıl sağlığınız için Graphite (size zaman içindeki değişim oranını verecek) türevini kullanabilir ve bunu kullanarak projelendirebilirsiniz, ancak GERÇEKTEN "daha akıllı" uyarılar istiyorsanız günlük ve haftalık değişim oranını (hesaplanmış gün / hafta için pik kullanımına göre).

Kullandığınız belirli projeksiyon (en küçük değişim oranı, en büyük değişim oranı, ortalama değişim oranı, ağırlıklı ortalama, vb.) Ortamınıza bağlıdır. IBM'in araçları çok farklı görünümler sunar, çünkü herkese uyan tek bir deseni çivilemek gerçekten zordur.


Nihayetinde hiçbir algoritma istediğiniz hesaplamayı yapmakta çok iyi olmayacaktır. Disk kullanımı kullanıcılar tarafından yönlendirilir ve kullanıcılar Rational Actor modelinin antitezidir: Tüm tahminleriniz, bugün için tam bir sistem belleği dökümü gerçekleştirecekleri gün olduğuna karar veren çılgın bir kişi ile pencereden dışarı çıkabilir. giriş dizini. Sadece Çünkü.


Görüşleriniz için teşekkürler. Puanlarını görüyorum. Hala sabit eşiklerin "ne kadar süre düzeltmem gerekiyor?" ve "eşiklerinizi ayarlayın" yorumunuzla biraz haklı olun. Basit grafit türevleri işe yaramaz çünkü orijinal grafik düzgün değildir. IBM'in araçlarına işaret ettiğiniz için teşekkürler, anlattığınız şey düşünmeye başladığım gibi geliyor (son iki minimum değeri çıkarın ve eğimi hesaplayın).
Amos Shapira

Şüphesiz 'dolu dolu günler' metriği, statik 85/90/95 eşikleriyle, diskin ne kadar hızlı dolduğunu bilmiyor olmanızdır. Elbette, potansiyel bir sorunun farkındasınız, ancak sorunu çözmek için günleriniz mi yoksa haftalar / aylarınız mı olduğunu nasıl bilebilirsiniz?

Bu görüşe sahip olmanızı gerçekten ilginç buluyorum. Bunu şu şekilde çerçevelendireyim: Şirketiniz, daha fazla sabit disk için ilk istek arasında, bu sabit disklerin kutulara gerçekten yüklendiği ve yükün yeniden dağıtılmasının başladığı güne kadar yaklaşık 6 hafta süren bir tedarik sürecine sahip. Bir diskin zamanında yüklenebilmesi için hangi disk% 'sinde 6 haftalık zaman dilimi bildirilmelidir? % 80? % 75? Gerçek şu ki, büyüme oranını hesaplamak için biraz çaba sarf etmedikçe bilmiyorsunuz.
JHixson

2

Son zamanlarda doğrusal regresyon kullanarak bunun için özel bir çözüm sunduk.

Sistemimizde disk tükenmesinin birincil kaynağı döndürülmeyen kaçak günlük dosyalarıdır.

Bunlar çok öngörülebilir bir şekilde büyüdüğünden, disk kullanımı üzerinde doğrusal bir regresyon gerçekleştirebiliriz (örneğin, z = numpy.polyfit(times, utilization, 1)) sonra doğrusal model verilen% 100 işaretini hesaplayabiliriz (örn. (100 - z[1]) / z[0])

Konuşlandırılmış uygulama gibi görünüyor bu kullanarak yakut ve GSL olsa numpy eserler oldukça iyi de.

Bu, 90 dakikalık aralıklarla (112 puan) bir haftalık ortalama kullanım verilerinin beslenmesi, bugüne kadar çok fazla gürültü olmadan disk tükenmesi için olası adayları seçmeyi başardı.

Gistteki sınıf, izciden veri çeken, gevşeme konusunda uyarı yapan ve statsd'ye bazı çalışma zamanı telemetrisi gönderen bir sınıfa sarılır. Altyapımızla ilgili olduğu için bu parçayı dışarıda bırakacağım.


Cevabı bazı bilgilerle güncelledik, şimdi yayınladık.
matschaffer

1
Sadece bu yaklaşımla komik bir yakaladım. Ayrıca% 90 alarmımız var. Bizim dan biri yavaş yavaş% 90 vurmak ve hala% 100 vurmadan önce bir haftadan fazla olmasına rağmen bu alarm tetikledi böylece tahmin alarmı asla ateş;) Sanırım (90 - z[1]) / z[0]bunun yerine kullanmalıyım .
matschaffer
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.