Sert bir Linux çökmesini nasıl teşhis edebilirim?


5

Öncelikle posta ve web sunucusu olarak çalışan ev yapımı bir Linux sunucum (Ubuntu 12.04.5 LTS, Intel i5-3570K, 8GB RAM) var. Yalnızca konsol kipinde çalışır (GUI yok). Şimdi ve sonra ona SSH yapacağım ve neredeyse hiçbir zaman konsoldan çalıştırmayacağım. Günlerce, hatta haftalarca bile iyi çalışma eğilimindedir, ancak bazen uyarı vermeden sert bir şekilde çarpar. Ve "sert çöküyor" dediğimde, bilgisayarın aniden tamamen tepkisiz hale geldiğini söylüyorum:

  • Hiçbir günlük girişi bırakmaz
  • Bir "Oops", çekirdek panik mesajı veya çekirdek dökümü yaymaz
  • Ekranda hiçbir mesaj göstermiyor.
  • Herhangi bir klavyeye veya fare girişine yanıt vermiyor (NumLock ışığı da bu tuşa yanıt vermiyor)
  • SSH tarafından erişilemiyor
  • Kasanın sıfırlama düğmesi çalışmayacak

Tek çözüm kasanın güç düğmesini kapanana kadar basılı tutup yeniden başlatmaktır.

Tabii ki bu "donanım sorunu" diye haykırıyor, ama hangi bileşen en olası? Memtest86 + hata göstermez, bu yüzden Büyük Üç anakartı, CPU veya güç kaynağı kalacak gibi görünüyor. (PC overclock edilmedi ve son mesajlar (çarpmadan önce) sensörler aşırı ısınma veya fan problemi olmadığını gösteriyor)

  1. Bu bileşenlerden hangisinin problem olabileceği konusunda istatistiksel bir ihtimal var mı?

  2. Son ölçütleri koyu yazmıştım, çünkü bu benim için olağandışı görünüyordu. Genellikle zorlu bir çöküşte bile, bir PC hala kasanın sıfırlama düğmesiyle yeniden başlatılabilir. Bu, PSU’da veya anakartta bir sorun mu gösteriyor? (PC kapatmak için güç anahtarı 4-5 saniye tutarak yok hala çalışır)

  3. Sorunun çözüldüğüne (birkaç hafta boyunca çarpışmadan sonra) emin olmadan, sadece yeni parçalar sipariş etmeden bunları test etmenin bir yolu var mı?

Yardımcı olabilecek herkese teşekkürler.


1
SMART, kurulu olan sabit disklerde herhangi bir hata rapor ediyor mu? Not: SMART raporlamasını kontrol etmek için "Diskler" yardımcı programını kullanın.
Steven

Arızalı sıfırlama anahtarı olağandışı. Flakey sıfırlama gördüğümü hatırladığım tek zaman uzun zaman önce mil özellikli sağlamlaştırılmış bir bilgisayardaydı (şekil); tahta temasları kötüleşir, böylece tüm tahtaların çıkarılması ve tekrar takılması gerekir. Aksi halde, sıfırlama devreleri, sadece mobo ve CPU'yu içeren oldukça basit olma eğilimindedir (PC'lerde ACPI yer alabilir mi?).
talaş

Steven, farkında olduğum SMART hatası yok ama sunucuya geri döndüğümde tekrar bakacağım. @ sawdust, ilginç olan şey, sıfırlama anahtarının, makinenin sert düştüğü durumda olmadığında (iyi bir şekilde kullanmak isteyeceğiniz değil, ancak çalıştığı zaman ...) iyi çalışmasıdır.
George Adams

"reset switch iyi çalışıyor ..." - Evet, bunu merak ediyordum, ama analizin / yazman çok iyi, sanırım öyle. En kötü durum senaryosu, SW + HW sorunlarının bir araya gelmesi olabilir bu durumu makineye koyar. Bir PC'de sıfırlamanın nasıl çalıştığını (endüstriyel SBC'lere karşı) nasıl çalıştığını bilmiyorum (örn. Gerçekten bir HW sıfırlama mı yoksa NMI, maskelenmez bir kesme mi?). PSU muhtemelen ikame edilmesi en kolay bileşen olduğundan, bunu sadece bir neden olarak ortadan kaldırmak için deneyebilirsiniz.
talaş

Yanıtlar:


1

1: Ubuntu'nuz Kararlı mı? Ubuntu’nun kararlı bir sürümünü indirdiniz mi? son kararlı yapıya düşürmeyi denemeyin.

2: Başka bir Sanal / Fiziksel Makinede denediniz mi? Sanal Kutu gibi bir Sanal Makinede test eden bir komut dosyası hatası olabilir, bu adımları daha önce denememişseniz, işletim sisteminin hatalarını ayıklayıp izleyebileceğiniz bir ortam sağlar.

3: Ram hatası? Tamam, yerel SSD / HDD / SSHD olması pek mümkün değildir, çünkü linux işletim sistemi RAM'e yüklenmiştir ve çekirdeğe temas edememesi durumunda çökmesine neden olacaksa bir uyarı verecektir. Bununla birlikte, eğer hatalı / Arızalı olduğundan dolayı kilitlenecek olan ram , işletim sistemi, herhangi bir günlük olmadığını açıklayabilecek herhangi bir hatayı gönderememe (hatta farkında olma) durumunun tamamen donmasını sağlarsa. Başka

4: Forumlara bir göz atın Tamam Ben oradaki en etkili Linux kullanıcısı değilim ve gerçekten bilmediğim pek çok şey var, benzer donanım ve yazılım sorunları yaşadım, ancak gerçekte ne olduğunu bilmiyorum sizin ev demlemek sunucusu göz orada id kusur dışarı belirlemekte böylece zor yapmasıdır Forum


1. Evet, dediğim gibi, bu Ubuntu 12.04.5 LTS'dir (uzun vadeli destek sürümü). 2. Bu fiziksel bir sunucudur. Sanallaştırıp taşımama izin verecek başka bir donanıma sahip değilim. 3) Bahsettiğim gibi Memtest86 + hata göstermiyor.
George Adams

1

Hiç kimsenin SysRqsihirli anahtarın kullanılmasını önermediğine şaşırdım .

Öncelikle, yeniden başlatmayı zorlamak için güç düğmesi yerine kullanılmalıdır, çünkü bu programlara kaydedilmemiş verileri diske kaydetme şansı verir; bunu yapmamak, yeniden başlatma sırasında önemli sorunlara neden olabilir (normal fsckkontrol için beklemek zorunda kalmadan kaynaklanan çökme deliğinden bahsetmeyin ). Bu şöyle yapılır: tutmak Altve SysRqpreslenmiş aynı anda girmek, birkaç saniye ile aralıklı her biri r e i s u b(İngilizce ünlü kısaltmalar edilir Elephants Raising Yani Tamamen Sıkıcı mı , ben tercih ayak işlerini Yani Tamamen Sıkıcı mı , daha iyi bir ile gelip deneyin eğer yapabilirsen.

Hatta ayrı sistem kullanımını donduğunda bu, gelen Alt+ SysRq+ X(X bir harftir) bazı teşhis işlemini yapmanızı sağlar: örneğin, X=dbir yazılım sorunu teşhis yardımcı olabilecek tüm güncel kilitleri, görüntüler; X=jdonmuş dosya sistemlerini çözer; X=l( lbir ell'dir) bir yığın geri izini gösterir; X=tkonsola mevcut görevlerin bir listesini çıkarır; X=wengellenen görevlerin bir listesini görüntüler.

Wikipedia'da daha fazla kod bulabilirsiniz .

Bunun kesin bir adım olacağını söyleyemem (bunun bile başarısız olduğu durumlar vardır), ancak soruşturmada bir yazılım veya donanım sorununu göstermeye ve muhtemel suçluların menzilini sınırlamaya yardımcı olacak bir sonraki adımdır.


0

Yapabileceğiniz en iyi şey kilitlenme süresinin yakınındaki günlüklere bakmak ve kilitlemeyi herhangi bir türdeki sistem olayıyla ilişkilendirip eşleştiremeyeceğinizi görmek. Yapması zor bir şey ve bu şekilde doğrudan bir sebep olabilecek bir şey bulamayabilirsiniz.

Donanım sorunlarını tanılamak için bazı ipuçları:

Ortadan kaldırılması en kolay şey donanım yazılımı sorunları / ayarlarıdır:

  • Sisteminizin üreticiden en son üretici yazılımı / BIOS güncellemelerine sahip olduğundan emin olun.

  • Herhangi bir depolama cihazının da en son üretici yazılımı ile güncellendiğinden emin olun.

  • Ürün yazılımı / BIOS'taki CPU veya diğer güç yönetimi seçeneklerini devre dışı bırakmayı deneyin.

  • Kullanmazsanız ürün yazılımında sanallaştırmayı devre dışı bırakmayı deneyin.

RAM ile ilgili sorunlar, bir bellek testinde gösterilmeseler bile zor kilitlenmelere neden olabilir. Çok aralıklı bir şey olabilir. Gerçek sunucular, nadir / geçici RAM hatalarının sorunlara yol açmasını önleyen ECC RAM'e sahiptir, ancak bu sunucu olmayan bir PC ise, buna sahip değildir. Mümkünse RAM'i değiştirmeyi deneyin.

Duvar gücünüzden kaynaklanan bir güç sorunu bunun gibi sorunlara neden olabilir. Ev sunucusunu çalıştırma konusunda ciddiysen, geçici güç sorunlarını da filtreleyen bir pil yedeklemen olmalı.

Bundan sonra sorun devam ederse, güç kaynağını değiştirmeyi veya başka bir tane kullanmayı deneyin.

Daha sonra, anakartın lapa lapa olduğunu ve değiştirmeye baktığını varsayalım.


Günlükleri her zaman çok zararsız. Birden bire BAM olduğunda normal işleriyle uğraşıyor - artık kayıt girişi yok. Ani ölümden hemen önce hiçbir garip senaryo yazılmıyor. Sunucu bir UPS üzerinde çalışıyor. ECC RAM ilginç bir fikir. Bu fiyatlandırmaya bakmak zorundayım.
George Adams
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.