Selamlar,
Dağıtılmış izleme sistemleri hakkında kolektif görüş ve görüş sormak istiyorum, ne kullanıyorsunuz ve hangilerinin kutularımı işaretleyebileceğinin farkında mısınız?
Gereksinimler oldukça karmaşıktır;
Tek bir hata noktası yok. Gerçekten mi. Çok ciddiyim! Hem 'ana' hem de 'çalışan' olmak üzere tek / çoklu düğüm hatasını tolere edebilmeniz gerekir ve hiçbir izleme konumunun ("site") içinde birden fazla düğümün olmadığını veya aynı ağda olduğunu varsayabilirsiniz. Bu nedenle, bu muhtemelen DRBD veya Keepalive gibi geleneksel HA tekniklerini geçersiz kılar.
Dağıtılmış mantık, birden fazla ağda, birden fazla veri merkezinde ve birden fazla kıtada 5+ düğümü dağıtmak istiyorum. Müşterilerimin bakış açısından ağımın ve uygulamaların "Kuş Gözü" görünümünü, 50+ düğümünüz veya 500+ düğümünüz olduğunda izleme mantığının öne çıkmasını istemiyorum.
Ballpark rakamları için oldukça makul sayıda ev sahibi / hizmet kontrolünü, la Nagios'u idare edebilmek için 1500-2500 ev sahibi ve ev sahibi başına 30 hizmet varsayılmaktadır. Daha fazla izleme düğümü eklemek nispeten doğrusal olarak ölçeklendirmenize izin verseydi gerçekten güzel olurdu, belki 5 yıl içinde 5000 ana bilgisayar ve ana bilgisayar başına 40 hizmeti izlemek isteyebilirim! Yukarıdaki notumdan 'dağıtılmış mantık' üzerine ekleyerek şunu söylemek güzel olurdu:
- Normal koşullarda, bu kontroller izleme düğümlerinin $ n veya% n üzerinde çalışmalıdır.
- Bir hata tespit edilirse, düğümlerin başka bir n $ n veya n% 'sinde kontroller yapın, sonuçları ilişkilendirin ve ardından uyarı vermek için kriterlerin karşılanıp karşılanmadığına karar vermek için bunları kullanın.
Grafikler ve yönetim dostu özellikler. SLA'larımızı takip etmeliyiz ve 'yüksek oranda kullanılabilir' uygulamalarımızın 7 gün 24 saat kadar yüksek olup olmadığını bilmek biraz faydalıdır. İdeal olarak önerilen çözümünüz en az faff ile "kullanıma hazır" raporlama yapmalıdır.
Ismarlama kontrollerin geliştirilmesi için sağlam bir API veya eklenti sistemine sahip olmalıdır.
Uyarılar hakkında duyarlı olmak gerekir. Mutlaka bilmek istiyorum (SMS ile, 3 am!) Bir izleme düğümü çekirdek yönlendiricimin aşağı olduğunu düşünüyor. Ben do bunların tanımlanmış bir yüzdesinin bilmek istiyorum katılıyorum şey korkak oluyor ki;) Esasen ne hakkında burada konuşuyorum "çekirdek" mantığı veya dağıtılmış akıldan deliliğe uygulanmasıdır!
Milyonlarca pounda mal olan yazılımdan uzak durmayı tercih etsem de, hem ticari hem de açık kaynak seçeneklerini göz önünde bulundurmaya hazırım :-) Ayrıca, tüm bu kutuları işaretleyen hiçbir şey olmadığını kabul etmeye istekliyim, ama Kolektife bunu sormak istedim.
İzleme düğümleri ve yerleşimleri hakkında düşünürken, bunların çoğunun rastgele ISS ağlarındaki adanmış sunucular olacağını ve dolayısıyla büyük ölçüde kontrol alanımdan çıkacağını unutmayın. BGP yayınlarına ve diğer karmaşık ağ oluşturma özelliklerine dayanan çözümler muhtemelen uygun değildir.
Ayrıca geçmişte Nagios, Zabbix ve arkadaşları da dahil olmak üzere açık kaynaklı lezzetlerin çoğunu değerlendirdiğim, kullandığımı veya yoğun bir şekilde kullandığımı / özelleştirdiğimi belirtmeliyim - gerçekten kötü araçlar değiller ama genel olarak düz düşüyorlar " Özellikle benim sorum ve 'akıllı' uyarılarda tartışılan mantık açısından dağıtıldı.
Gerekli noktaları netleştirmek için mutluyuz. Şerefe çocuklar ve kızlar :-)