Artan gecikmenin kaynağı nasıl bulunur?


14

Ofisimizdeki çeşitli cihazlarda izleme kurulumum var. Küçük erişim anahtarlarına ping yanıt süresi genellikle 1-4 ms'dir ... Bu sabah 03:00 itibariyle ortalama 300 ms'ye fırlatıldı.

Böyle bir duruma nereden bakmaya başlanır? Gecikmenin kaynağını bulmak için geçişte neler gözlemleyebilirim?

NOT: Yük ile ilgili değildir .. tüm bağlantılar bant genişliği kullanımı normal ve etkilenmez, çoğu bağlantı çok az kullanılmaktadır. Ayrıca - izleme, gecikmeyi rapor eden cihazlar için yereldir, bu nedenle burada WAN faktörü yoktur.


3
Bunun bir Cisco IOS anahtarı olduğunu varsayarsak ... Lütfen show proc cpu historyyüksek ping sürelerine sahip anahtarı gönderin . Bu CPU sürekli olarak yüksekse veya düzenli olarak yüksekte yükseliyorsa, çalıştırınshow proc cpu sort
Mike Pennington

Gecikme sadece anahtarın kontrol düzlemine doğru mu yoksa anahtarın arkasına bir şey ping attığınızda aynı gecikmeyi mi alıyorsunuz?
ytti

@MikePennington - imgur.com/a/gfX9q#0 - bu çok güzel! Görünüşe göre ortalama olarak düşük olsa da sürekli yüksek yükseliyor ..
AL

@Ytti - bunu ayrı bir satıra göndermek istememiştim .. neyse - Bu yüzden daha derine kazdım. cp <-> cp yanıtı aslında dağıtımdan erişime düşük, ya da en azından test ettiğim zamandı. Erişim düzeyi bağlantı noktasından erişim katmanı anahtarlarındaki aygıtlara kadar aşırı gecikmeyi gördüğümüz yerdir.
AL

@ user1353, teşekkür ederim ... Gönderdiğiniz imgur, bu anahtardaki CPU'dan sürekli olarak artan ping sürelerine neden olacak kadar yüksek değil
Mike Pennington

Yanıtlar:


6

Birincisi, gecikme doğrudan bant genişliğine bağlı değildir. Bir cihazın sıkışık bir bağlantıdan başka bir paketi geciktirmesinin birçok nedeni vardır.

Bir traceroute denediniz mi? Eğer şüpheli olarak bir L3 sınırı arıyorsanız, bu, şerbetçiotu arasındaki gecikmeyi gösterecektir.

Ayrıca yoldaki aygıtlardan herhangi birinin önemli miktarda CPU / RAM kullanımına sahip olup olmadığını da kontrol edebilirsiniz.


Mierdin ile aynı fikirdeyim ve ayrıca MTR'yi bu tür bir durumda sürekli bir traceroute çalıştırmak için tavsiye ederim. Wikipedia Bağlantısı: en.m.wikipedia.org/wiki/MTR_(software)
Brett

@Mierdin - Geri bildiriminiz için teşekkürler, bu yüzden burada L3 faktörü yoktur, traceroute başlangıçta yaklaşık 500ms, daha sonra 260ms, daha sonra cihaza gelen 76ms'lik yüksek bir yanıt gösterir - bunlar her biri için aynı tek sekmede denenir, birden fazla değil şerbetçiotu. CPU ile ilgili bilgi için MikePennington'a yaptığım yoruma bakın.
AL

3

Bu yalnızca LAN'a dayanıyorsa, buna neyin neden olduğunu bulmak için başlamak için yapabileceğiniz birkaç şey vardır:

  • İşlem cpu geçmişi komutunu göster: CPU kullanımı çok yüksekse, hangi işlemin buna neden olduğunu görmeniz ve belki de rahatsız edici işlemle google'a çarpmanız gerekir.

  • hata ayıklama komutunu göster: yaygın bir neden bulduğum insanlar hata ayıklama komutları anahtar üzerinde çalışan bırakarak. Yaygın bir favori, zaten aşırı kullanılan cihazlarda IP hesaplarının bırakılmasıydı. Hata ayıklama kurtulmak için "tüm undebug" kullanın.

  • Bir yeniden başlatma verin : muhtemelen gün içinde değil, ancak gece veya hafta sonu zamanlamak için "yeniden yükle" komutunu kullanın. Hızlı bir yeniden başlatmanın kaç sorunu çözebileceğine şaşıracaksınız.

  • trunk portları - L3 anahtarı ise, gördüğüm başka bir yaygın sorun, VLAN'lar arasında yönlendirme için bu cihazı kullanan çok fazla trafik. Mümkünse, gecikmeyi azaltıp azaltmadığını görmek için bagaj bağlantı noktalarından bazılarını geçici olarak kapatın.

Pinglerinizin gecikme açısından ve ayrıca CPU tarafından işlenirken düşük önceliğe sahip olduğunun farkında olmak iyidir. QoS ayarlarınızı iki kez kontrol etmek ve buna neden olabilecek saçma hataların olmadığından emin olmak da iyi bir fikir olabilir.


Harika geri bildirim, şov hata ayıklamasını zaten kontrol etmiştim ve şu anda yeniden başlatma mümkün değil.
AL

2

Bant genişliğini izlemek için kaktüs, gecikmeyi izlemek için openNMS kullanıyorum. Bu anahtara bağlı tüm cihazları izliyorsanız, kullanım ile gecikme arasında bir sonuç görebilirsiniz. (bunun bir bant genişliği sorunu olmadığını söylediğini biliyorum, ama şimdi hiç yapmadın) Alt uç anahtarların ağır kullanım altında sarktığını gördüm, bu da çok fazla gecikmeye neden oluyor. Bu anahtar çok fazla trafik geçmese bile sarkmanın kaynağı olabilecek bu anahtarı besleyen "aptal" cihazlarınız var mı? Ayrıca kaktüslerle CPU kullanımını yoklayabilir ve gecikme anında ani bir artış görebilirsiniz.

Yukarıda belirtildiği gibi, MTR veya neotrace durumu göz önünde bulundurmak için de yararlıdır ve gecikmenin nerede başladığını görebilirsiniz, bu da bu anahtarın kendisi olmayabilir.


0

Bu LAN'da gerçekleşmiyorsa, "wan port" geçişini sınırlayabilirsiniz, bu daha iyi bir TDM'yi zorlar. Maksimum veriminizin% 80'inde bir şey deneyin ve yardımcı olup olmadığını görün. Terminal miktarına bağlı olarak tweek yapmanız gerekebilir.


Anladığım kadarıyla OP notta açıkça belirtti, bu yük ile ilgili değildir.
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.