Bir izleme sunucusunu nasıl izlersiniz?


14

Bu yüzden, çeşitli sunucularımızı ve süreçlerimizi izlemek için CentOS üzerinde Groundworks (Nagios ile) çalıştırıyoruz. Bir UYARI veya KRİTİK duruma ulaştığında e-postaları ve SMS metinlerini otomatik olarak göndermek için ayar yaptım. Normalde bu mükemmel çalışır. Ancak, Postfix'in e-posta göndermeyi durdurmaya karar verdiği sunucuda Postfix ile iki kez sorun yaşadık. En son 4 gün sürdü çünkü hiçbirimiz fark etmedi.

Bu beni önemli bir soruya yönlendiriyor: İzleme sunucumu nasıl izlemem gerekiyor?


5
Quis custodiet ipsos velayeti?
James L

Heh. Juvenal. Güzel oynadı.
organicveggie

Bekçileri kim izliyor? : D
Florent Courtay

1
@organicveggie, Bir izleme sunucusu aynı zamanda bir sunucudur ... Bir izleme sunucusunu izlemek için bir izleme sunucusu kullanarak hangi sorunlarla karşılaşırsınız?
Pacerier

Yanıtlar:


12

Tabii ki ikinci bir izleme sunucusuyla. İkincisi çok daha basit olabilir, çünkü tek yapmanız gereken ilkini izlemek. Ve elbette ana izleme sistemi tarafından izlenmelidir.

Grubunuz ayrı BT altyapılarına sahip daha büyük bir kuruluşun parçasıysa, başka bir grubun izleme hizmetinin sizinkini izlemesi için gerekli düzenlemeleri yapabilirsiniz.

Ayrıca, sunucunun her gün bir "sorun değil" mesajı gönderdiğinden emin olabilir ve arama alışkanlığı kazanabilirsiniz. (Bu sadece elbette rutin mesajlarla boğulmuş değilseniz etkilidir.)


14

Diğer insanlar, her şeyin yolunda olduğunu söyleyen düzenli mesajlar göndermenizi önerir, ancak şahsen buna katılmıyorum. Bir sorun olmadığı sürece izleme sessiz olmalı ve bir kullanıcının yanlış olduğunu fark eden bir kullanıcıya asla güvenmemelidir, örneğin "Oh, bu e-postayı birkaç gün içinde almadım." Özellikle uyarılara yanıt veren birden fazla kişi varsa, her biri diğerinin günlük "İyiyim" mesajını zaten kaldırdığını düşünebilir.

İzleme sunucumuzun çalışır durumda olduğundan ve İnternet'e erişebildiğinden emin olmak için HTTP kontrolleri yapmak için (yüzlerce, ancak solucan kullanıyoruz ) harici bir hizmetimiz var . Bunu izlemek için birincil kaygımız bu. Daha sonra Nagios sunucumuz tüm müşterilerimize Nagios sunucularını izler.

Ama iyi bir noktaya değindin. Muhtemelen postfix kuyruğunu kontrol eden bir HTTP URL'si eklemeliyiz ve olağandışı sayıda mesaj gösteriyorsa, bu muhtemelen kuyrukta herhangi bir şey olduğu anlamına gelir , ardından bir uyarı oluşturun. Başka bir seçenek, şu anda kullandığımız SMTP olmayan bir SMTP SMS dağıtım aracısının yanı sıra uyarılar için farklı yöntemler kullanmak olacaktır.

Bizim durumumuzda olsa da, posta sunucusunun öldüğünü hatırlayamıyorum. Tabii ki, tüm bu posta sunucusu için kullanılan Nagios uyarıları göndermek, bu yüzden yapılandırma çok basit ve neredeyse hiç değişmez.


2
Normal OK mesajları o kadar faydalı değildir: bir kişiyi uyaran yokluğunda bir eylemde bulunacak şekilde güvenilir bir şekilde şartlandıramazsınız.
Tim Williscroft

@Tim: Üzgünüz, ancak "uyaran yokluğu" beklenen bir e-postanın alınmadığı durumu tanımlamaz. Böyle bir durumda, mesajın neden gelmediğini araştırmak için "teşvik edileceğime" inanıyorum. Ama belki bu sadece benim. :)
Steven Pazartesi

1
Sanırım ne demek istediğini kastetmeyen psikolojik terimler kullanarak yazıyorum. Davranışsal psikoloji ve havacılık psikolojisinin sistem mühendislerine söyleyecek çok şeyi vardır. Saha, İkinci Dünya Savaşı'nda 18-20 yaşındaki mürettebatın çarpışmadan en son uçakları uçurmaları ve gerçek askeri görevlerine hala dikkat etmeleri için yoğun bir şekilde geliştirildi. Bu yüzden uçaklarda "her şey yolunda değil" ışığı değil, ana uyarı ışığı vardır. TLDR (Bu kelimenin ne düşündüğünüzü ifade ettiğini sanmıyorum)
Tim Williscroft

1
Bir insanın dikkatini çekmesi gereken bir şey olmadığı sürece sistemlerin gürültü yapmaması gerektiğine inanıyorum. Sonlu bir dikkatimiz var ve bilgisayarlar "Ben yaşıyorum!" Ayrıca, sorunlara işaret etmeyen şeyler, insanları bir şeyleri görmezden gelmeyi akıllara getiriyor. Bir insana bir şey geldiğinde, gerçekten görmeleri gereken bir şey olduğundan emin olmak için çok çalışıyorum. İncelediği her gün kendisine gelen her türlü kütüğü olan biriyle çalışıyorum. Tabii ki, o kadar meşgul ki öğle yemeğine
çıkamıyor

1
Hizmetlerin çok fazla mesaj göndermemesi gerektiğini veya insanların hızla onları görmezden gelmeye başladığını kabul ediyorum. Ancak, izleme sistemi doğru ayarlandıysa, çok fazla ileti almamanız gerekir. Elbette, Groundworks / Nagios'tan gelen mesajları bir süre etkili bir şekilde durduran uyarıları kabul etme konusunda bir politikamız var. Uzun süreli bir kesinti varsa, sistem veya hizmet için izlemeyi devre dışı bırakırız. Sonuç olarak, günlük bir "Hayattayım" mesajı aslında oldukça makul.
organicveggie

5

Açıkçası postfix'iniz de izlenmelidir, ancak bu başka bir konudur;)

Kullandığım Firefox için Nagios denetleyicisi eklentisi hep Düzenli olarak kullandığım herhangi bir bilgisayarda bir durum çubuğunda çalışan.

Ayrıca nagios ana ping ve onun ping yanıt vermiyorsa SMS gönderir dış ana bilgisayar üzerinde özel bir komut dosyası var.

Şimdiye kadar (5+ yıl) Tamam çalıştı (ahşap vurmak).


2

Sunucu izlemesini izlemek için (bizim durumumuzda nagios), Pingdom veya alertfox'un ücretsiz veya temel planı harika çalışıyor.


İyi öneriler. Ancak bu durumda, izleme sunucumuza güvenlik duvarı dışında erişilemez. Pingdom ve Alertfox bizim için gerçekten işe yaramıyor.
organicveggie

1

İlk şey: Günde bir veya iki kez "Hayattayım" mesajları göndermesine izin verin. İkinci olarak, başka bir GSM modemi, küçük bir UPS vb. Ve birincil izleme sunucusuna özel (doğrudan) bağlantısı olan eski bir makineyi sadece bu amaçla çalıştırıyorum. Bu, üçüncü noktaya da yardımcı olur: İzleme sistemlerinizin durumunu düzenli olarak kontrol ettiğinizden emin olun. Küçük yardımcı izleme sistemi, ofisimdeki birincil sistemin durum sayfasını her zaman görüntüler.


1

İzleme sunucunuza internetten erişilebiliyorsa, harici sağlayıcı tarafından izlenmesi gerekir (örn. Websitepulse et. Al.).

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.