Donanım hatası olasılığını tahmin etme


13

Diyelim ki http://www.nersc.gov/users/computational-systems/edison/configuration üzerinde 100k çekirdek üzerinde 4 saat boyunca süper bilgisayar hesaplaması yapıyorum , ağ üzerinden yaklaşık 4 PB veri alışverişi yapıyorum ve yaklaşık 4 TB I / Ö. Hesaplamanın tümü tamsayıdır, bu nedenle sonuçlar doğru veya yanlıştır (ara sayısal hata yok).

Kodun doğru olduğunu varsayarsak, bir donanım arızası nedeniyle hesaplamanın yanlış olma olasılığını tahmin etmek isterim. Bunun için iyi bir yol nedir? Böyle bir tahminde bulunmak için gereken sayılar için iyi kaynaklar var mı?


CPU / ram sonuçlarının ağ hooey ve disk faktörlerine kıyasla gerçekten kararlı olduğunu düşünüyorum.
meawoppl

Yanıtlar:


5

O(108)

Benim hatırlamam, çeşitli hata modları arasında, bellekte veya işlemci çekirdeğinde tek bit döndürmelerin en önemli endişeler olmadığıdır. Daha ziyade, örneğin disk arızası, işletim sistemi hataları, vb. Nedeniyle tüm düğümler iniyordu. Bu nedenle, mevcut exascale tasarımları, kodların flash RAM'e periyodik olarak kontrol edilmesini gerektirir, tercihen kontrol noktası verilerini düğüm dışı iletir. Daha sonra, sistem bir düğümün kaybolduğuyla karşılaşırsa kodların daha önce kaydedilmiş bir durumdan anında yeniden başlayabilmesi gerekir, bu düğümü sistemin başka bir yerinde bir sıcak başlatma düğümü ile değiştirir.


Bu tam olarak ihtiyacım olana benziyor. Aklınızda belirli örnekler var mı?
Geoffrey Irving

1
Çeşitli DoE raporları arasında ilginizi çeken bir şey olup olmadığını göreceğim. Exascale.org'u da bildiğini sanıyorum ? Orada sizin için okuyacak çok şey olmalı.
Wolfgang Bangerth

1
Kesin exascale raporu Geoff, Peter Kogge tarafından hazırlanmıştır ve çevrimiçi olarak mevcuttur . Direnç kelimesinin herhangi bir oluşumuna bir göz atın. Bununla birlikte, sizi NERSC'de bu makine hakkında daha spesifik bilgilere sahip olabilecek birkaç kişiye yönlendirebilirim.
Aron Ahmadia

@AronAhmadia: Teşekkürler, bu belge harika görünüyor. İlgilendiğim hata sınıflarının daha fazlasını kapsaması gerektiğinden bu yanıtı kabul ediyorum.
Geoffrey Irving

@Wolfgang: Bu bana Minuteman füzelerinin kontrol noktaları ile programlandığı soğuk savaş günlerimi hatırlatıyor, böylece yakınlarda bir nötron flaşı oluşursa, işlemcinin aniden kapanmasına neden olursa, en son kontrol noktasından yeniden başlayabilir. Muhtemelen doğru zamanlarda kontrol noktaları aldıysa, buna "yeniden başlatma korumalı" denirdi.
Mike Dunlavey

9

Sanırım, DRAM gibi bileşenlerin hata oranlarını toplayarak işe başladınız. Wild'daki DRAM Hataları ile ilgili bu Google araştırması : Büyük Ölçekli Bir Alan Çalışması Yılda ~ 1% düzeltilemez bir hata alma şansı buldular.

İlgilendiğiniz bu mu emin değilim. Tespit edilemeyen hatalarla daha fazla ilgilenirim. Tipik hata kontrol yöntemlerinin tespit etmeyeceği hatalar. Örneğin, optikler üzerinden paket gönderdiğinizde, bir çeşit CRC eşlik eder, bu da küçük bir hata kayması olasılığına izin verir.

GÜNCELLEME: Bu yazı Çok Çekirdekli İşlemcilerde Çevrimiçi Hata Algılama ve Kurtarma Mimarileri güvenilir çok çekirdekli mimariden bahsediyor, ancak aynı zamanda sistemin güvenilirliğinin farklı yönlerini de içeriyor ve kaynakça var


Harika bir çalışma. Çok sayıda sezgi, eski, sıcak, sık kullanılan, neredeyse dolu koçun daha az güvenilir olduğunu doğrular. Satıcının belirli arızaları veya genellikle daha kötü mimarileri olmadığından biraz şaşırdım.
meawoppl

3

Böyle bir tahminde bulunmak için gereken sayılar için iyi kaynaklar var mı?

Hesapladığınız kümenin yöneticilerine sormayı deneyebilirsiniz. Doğrulama süreçlerinin bir parçası olarak, donanım hataları olasılığını tahmin etme sorunu ile karşı karşıya kaldıklarını hayal ediyorum.


Teşekkürler! Görünürde belli, ama bu benim başıma gelmemişti.
Geoffrey Irving

2

Destansı geliyor. Kimse bu deneyi yapmamışsa, 100k ayrı çekirdek çalıştırmayı, hata oranının ne olduğunu görerek sha1 girişini tekrar tekrar yeniden şekillendirme gibi bir şey yaparak düşünebilirsiniz. (Ölçülemez sanıyorum), oradan da aynısını yapın, ancak ağ hata oranlarınızı almak için sık sık karma zincir sonuçları almasını sağlayın. Hayal ettiğim bu da çok küçük, ama üstkümenizi birkaç saat içinde kullanarak en az birkaç tane alabileceğinizden şüpheleniyorum :)

Bu yaklaşım , karma işlemin tek bitli swaplara karşı son derece hassas olması nedeniyle her hesaplamanın doğru olmasını sağlarken, yalnızca tamsayı bir hesaplama bile dallardaki hataları gizleyebilir, yani tüm hesaplama her ardışık bellek durumunda eliptik olmaz.

Kod sahte bir sonuç göndererek hile etmektir bir dış küme tarafından doğru çalıştırıldığından emin olmak için bir yol üzerinde çalışıyorum. Yakınlaştığım çözüm, karmayı hesaplamaya, hile işini yapmaktan daha az verimli hale getiren bir frekansla entegre etmektir.


2
Ne yazık ki, bitcoin madenciliği planınızın onaylanması olası değildir. :)
Geoffrey Irving

Tee hee hee. Gerçekten iş kanıtı. : P
meawoppl
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.