Hata ayıklama Linux makine donuyor


9

15 özdeş Linux RH 4.7 64-bit sunucum var. Küme veritabanını çalıştırırlar (küme uygulama düzeyindedir). Bazen (her ay kadar) rastgele bir kutu (asla aynı olmasa da) donar.

Kutuya ping atıp ping çalışmaları yapabilirim. Eğer kutuda ssh yapmaya çalışırsam:

ssh_exchange_identification: Connection closed by remote host

SSH düzgün ayarlanmış.

Sunucu odasına gittiğimde ve doğrudan konsola giriş yapmaya çalıştığımda, Alt+ ile konsolları değiştirebilirim Fn, bir kullanıcı adı girebilirim ve karakterler gösteriliyor, ancak bastıktan sonra Enterhiçbir şey olmuyor. Bir kez 8 saat bekledim ve değişmedi.

Syslog'u her şeyi uzak bir ana bilgisayara kaydedecek şekilde ayarladım ve bu günlüklerde hiçbir şey yok. Makineyi yeniden başlattığımda, sorunsuz çalışıyor. HW testleri yaptım - her şey yolunda ve günlüklerde hiçbir şey yok. Makineler de NAGIOS ile izlenir ve donmadan önce olağandışı bir yük veya aktivite yoktur.

Fikirlerim bitti; başka ne yapabilirim veya kontrol edebilirim?


Hangi donanım testlerini yaptınız? Hangi araçları kullandınız?
tshepang

HW HP uyumlu, normal akıllı araçların çalışmadığı RAID durumunu kontrol etmek için kullandım ve hafızayı kontrol etmek için memtest kullandım. Birkaç ay boyunca bu sorunu yaşıyorum ve onun asla aynı sunucu.
Luka Marinko

RedHat desteği ne önerir?
RedGrittyBrick

Luka, konsolunda, hiçbir şey sadece girdikten sonra meydana geliyor kullanıcı adı ve enter tuşuna basmak, ya da şifresini ister etmez ve sonra o değil tepki verirler?
mattdm

Sorunu çözdüyseniz, neyin yanlış olduğunu ve başkalarının görmesi için ne yaptığınızı açıklamak için lütfen sorunuzu düzenleyin.
Thorbjørn Ravn Andersen

Yanıtlar:


6

Çekirdeğiniz sshd'nin sunucu anahtarlarını gönderemediği bir şekilde panikledi. Muhtemelen, çekirdek ağ yığını hala yukarıda olacak şekilde sıkışmıştı, ancak vfs katmanı kullanılamıyordu.

Bir RHEL4 sisteminde benzer sorunlar yaşadığımda , çökme dökümlerini ve çekirdek panik bilgilerini yakalamak için netdump ve netconsole hizmetlerini ve özel bir netdump ve syslog sunucusunu kurdum. Ayrıca kernel.panic sysctl değerini 10 olarak ayarladım. Bu şekilde, bir sistem paniği olduğunda, bu sistemdeki 'crash' yardımcı programı ile analiz edebileceğiniz hem çekirdek izini hem de belleğin bir kopyasını alırsınız.

Ayrıca ana bilgisayarlar için seri bir konsol kurmaktan da faydalanırsınız, böylece konsolu dışarı çıkardınız ve potansiyel olarak sihirli sysrq tuşlarına basabilirsiniz. Ayrıca, ağı kurmaya hazırsanız ve onu destekleyen bir donanımınız varsa, donanımın gücünü kapatmak, güçlendirmek, yeniden başlatmak ve sorgulamak için IPMI'yı kullanabilirsiniz.

(değer için, RHEL5 kexec / kdump ile benzer bir işlevselliğe sahiptir, sadece çökme dökümü yerel olarak depolanır)


Merhaba, doğrudan (KVM aracılığıyla) konsol için erişimim var ve orada hiçbir şey yoktu. Kullanıcı adımda sanal terminaller türü arasında geçiş yapabilirdim, ama bu kadar, ctr + alt + del de işe yaramadı, ancak konsoldan olmalı.
Luka Marinko

Ayrıca sunucuların HP ILO'su var, onları yeniden başlatabilir ve uzaktan kumandadan HW durumu görebilirsiniz. Orada hata yoktu
Luka Marinko

Bu süre zarfında sistem kayıtlarını kontrol ettiniz mi? Panik bir çekirdek gibi geliyor. Linux sunucularımdaki KVM'lere güvenmiyorum, çoğu zaman çekirdek paniği konsolda görünmüyor veya bozuk veya sadece son birkaç satır, bu yüzden seri bir konsolu tercih ediyorum.
jsbillings

1
Bu bir çekirdek paniği gibi gelmiyor. Konsol geçişi hala çalışıyor ve oturum açma programı hala etkin.
mattdm

evet syslog merkezi syslog sunucusuna yönlendirildim. Günlüklerde olağandışı bir şey yok.
Luka Marinko

3

Hafızanızın bittiği çöreklere dolar bahse gireceğim. Sistem nereden alınacağını anlamaya çalışırken durma noktasına geliyor. O kadar hızlı gerçekleşiyor olabilir ki izlemeniz onu yakalamıyor. Uzaktan bellek kullanımı da dahil olmak üzere izlemeyi hızlandıracağım. Günlüklerde OOM iletileri olup olmadığını da kontrol edin.

(Hatta sadece bazı ssh pencerelerinin çalışan üst açık olmasını isteyebilirsiniz.)


3

Bana göre bu sistem kaynakları yetersiz gibi geliyor, bu yüzden ssh sunucu tarafı için gerekli süreç tahsis edilemez.

Asıl darboğaz, işlemlerden veya belleğin dışında değişebilir ve emin olmanın tek yolu, orada bir şey olup olmadığını görmek için günlüklere ve konsola bakmaktır. Önceden başlatılmış bir ssh-işleri senaryosu oluşturmak isteyebilirsiniz - her makineye bir tane - basitçe bir dahaki sefere hazırlanmak için.

Eğer durum bu ise gerçekten kötü, o zaman bu mümkün olmayabilir gibi ekstra işlemini başlatmak zorunda kalmadan daha araştırmak böylece daha yerleşik komutlar başka kabuğun başlatılması düşünebilir. Ayrıca "tail -f / var / log / *" çok faydalı olabilir.

İyi şanslar.


0

Benzer bir şey gördüğüm tek şey, bir KVM anahtarının kullanıldığı ve sunucular arasında geçiş yapmak için bir klavye kısayol tuşunun (örn. Alt + n) kullanıldığı zamandı. Her seferinde olmadı ve etkilenen sunucudan uzak tutuluyor - bu yüzden hemen fark edilmedi. Sunucular arasında geçiş yapmak için KVM anahtarının kendisinde fiziksel bir düğme kullanıldığında kilitlenme olmaz. Kısayol tuşu sık sık kullanılıyorsa, bazen sunucu yeni oturum açma işlemlerine izin vermez. Mevcut SSH oturumları etkilenmedi.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.