6.0.8 Debian sunucusunun (HP ProLiant) soğuk önyüklemesinden sonra ntpd
, sistem zamanı ile tahrip oldu: sınırsız büyüyen normal ve güvenilir referans zaman sunucularına göre ofset ve titreşim. (İkiz özdeş bir sunucunun hiç bir problemi olmadığını unutmayın.) Birçok başarısız denemeyi denedikten sonra ntpd
, bir yeniden başlatmayı denemeye karar verdim ve her şey yolunda gitti.
Sorunu araştırmak için saat problemlerimi açıklayabilecek bu tutarsızlığı buldum:
root@n1:~# zgrep Detected /var/log/dmesg*
/var/log/dmesg:[ 0.004000] Detected 2400.110 MHz processor.
/var/log/dmesg.0:[ 0.004000] Detected 2383.579 MHz processor.
/var/log/dmesg.1.gz:[ 0.004000] Detected 2400.036 MHz processor.
/var/log/dmesg.2.gz:[ 0.004000] Detected 2400.298 MHz processor.
/var/log/dmesg.3.gz:[ 0.004000] Detected 2400.165 MHz processor.
/var/log/dmesg.4.gz:[ 0.004000] Detected 2400.410 MHz processor.
İkinci son önyüklemede (sorunlu olan) algılanan CPU frekansının açık bir aykırı olduğunu unutmayın. Aykırı değer olmadan, tespit edilen frekansın nominal frekansa göre hatası ve standart sapması +0.15 MHz ± 0.25 MHz'dir. Sorunlu önyükleme için -16.4 Mhz hatası var, bu da beklenenden yaklaşık 100 kat daha büyük.
Sorularım:
Bu tür bir hata
ntp
zaman disiplinini kararsız / kullanılamaz hale getirebilir mi? Saat problemlerimin nedeni bu mu?Bu tür davranışlar, zayıf bir donanım belirtisi midir? Sunucu hw bakımına girmeli mi?
Güncelleme
Bazı yararlı veriler:
- çekirdek 2.6.32-5-amd64'tür (Debian 2.6.32-48squeeze4)
current_clocksource
dır-dirtsc
- hatası
lpj
(elbette) CPU frekansındaki hata ile tutarlıdır
Yukarıdakiler için bazı bağlam çizgileri grep
[ 0.000000] hpet clockevent registered
[ 0.000000] Fast TSC calibration using PIT
[ 0.004000] Detected 2400.110 MHz processor.
[ 0.000008] Calibrating delay loop (skipped), value calculated using timer frequency.. 4800.22 BogoMIPS (lpj=9600440)
ntpdc -c loopinfo
asla bana bir frekans sürüklenme değeri vermedi. Şimdi yeniden başlattıktan sonra her şey istikrarlı bir sapma değeri ile sırayla görünüyor ... BTW öneriniz doğru, benlog/loopstats
anormal davranış için izliyorum.