CPUlar çok fazla transistöre sahip olduklarında nasıl stabil olabilirler?


10

Bir CPU'nun tek bir küçük resimde milyarlarca transistör olduğunu bildiğimiz gibi, transistörlerden biri kırılırsa ne olur?

CPU'nun herhangi bir otomatik kurtarma mekanizması var mı?


6
Aslında günümüzde büyük olanlar milyarlarca transistör içeriyor.
starblue

6
Metastabilite gibi konulara daha fazla işaret ettiği için “kararlı” muhtemelen doğru kelime değildir. Bu konu için daha iyi bir seçim 'hatasız' veya 'verim' gibi kelimeler olacaktır. Veya ortaya çıkan yongalardan ziyade üretim sürecinin kararlılığını sorabilirsiniz.
Chris Stratton

2
@ChrisStratton, bence OP verimden daha fazla güvenilirlik istiyor olabilir.
Photon

1
Transistörlerden biri kırılırsa, çipi dışarı atarsınız. Artıklık (bazı özel uygulamalar hariç) ve onarım seçenekleri yoktur.
Dmitry Grigoryev

Yanıtlar:


18

Çok basit, satmadan ve kötü olanları atmadan önce onları test ediyoruz.

Bunu yapmanın birçok yolu vardır - farklı insanlar farklı bir şey yaparlar, genellikle aşağıdakilerin bir kombinasyonunu kullanırlar:

  • bazı testler yeterince hızlı olduklarından emin olmak için hızlıdır.

  • diğer testler, çipteki parmak arası terliklerin bir kısmını veya tamamını dev seri kaydırma kayıtlarına dönüştüren bir mod içerir, bilinen verileri bu zincirlere saatlendiririz, ardından çipi bir saat boyunca çalıştırırız ve ardından yeni sonuçları geri tarar ve eşleşip eşleşmediklerini kontrol ederiz. tahmin edilen sonuçlarımız - otomatik test araçları, çip üzerindeki her rastgele kapıyı veya transistörü test edecek minimum "tarama vektörleri" setini oluşturur - diğer vektörler ram bloklarının özel testlerini yapar,

  • diğerleri harici kabloların doğru bağlandığını test eder

  • sağlıksız miktarda akım çekmediğinden emin oluruz

Test süresi paraya mal oluyor, bazen kötü olanları atmak için paketlenmeden önce bariz ölü cipsler için bazı basit testler yapıyoruz ve daha sonra paketleme yapıldıktan sonra daha fazla test yapıyoruz


1
"Basit, satmadan ve kötü olanları atmadan önce onları test ediyoruz." 1 milyar transistör cihazı ile% 0.00000000001% verim elde edebileceğiniz tek kalite sistemi bu olsaydı
Federico Russo

2
Gerçekten bu kadar basit; verim kabul edilebilir olduğundan emin olmak için hile önceden çok büyük miktarda simülasyon ve kural kontrolünde. CPU mantığında nadiren fazlalık vardır; bazen çip üstü RAM'lerde biraz fazlalık elde edersiniz.
pjc50

Tasarım doğruysa, bireysel arızalarınız malzeme kusurları, kirlenme, süreç hataları vb. alanı. Bazı durumlarda, bazen satıldığından daha fazla fonksiyonel üniteye sahip bir çip olabilir, bu yüzden kötü ise yine de pazarlanabilir, ancak bu sınırlıdır. Bazen FPGA'ları, keyfi bir dosyayla çalışmak yerine yalnızca belirli bir yapılandırma dosyası tarafından kullanıldığı şekilde test edilen bir indirimle satın alabilirsiniz.
Chris Stratton

2
Bence AMD gibi kötü çekirdekli işlemcileri kötü çekirdekli farklı bir model olarak satan üreticilerden bahsetmeyi unuttunuz. Bu bir çeşit fazlalık veya akıllıca bir pazarlama olabilir.
akaltar

Herkes gri pazar parçalarının nasıl tedarik edildiğini merak ettiyse, artık merak etmemelidir. Chip fab sistemlerinin yazılım sonunda çalıştım ve burada açıklandığı gibi otomatik test, bitkiler için zaman ve para maliyetlerinin büyük bir parçası.

12

Başkalarının söylediklerini biraz genişletmek için: Doğrulama var ve bundan sonra cipslerin sınıflandırılması var.

CPU'lardaki transistörler sorunlarını daha yüksek frekanslarda gösterme eğilimindedir, bu nedenle bir CPU yapmak ve daha sonra birkaç farklı ürün olarak pazarlamak yaygındır. Ucuz CPU'lar aslında pahalı CPU'nun hasarlı versiyonlarıdır. Başka bir seçenek CPU'nun belirli bölümlerini devre dışı bırakmaktır. Örneğin AMD, BArton çekirdeği ile işlemciler yaptı. Ayrıca Thorton çekirdekli işlemciler sattı. Thorton yeni bir çekirdek değildi. Bunun yerine, L2 önbelleğinin yarısı arızalı ve devre dışı bırakıldı. Bu şekilde AMD, aksi takdirde boşa harcanacak CPU'larda biraz iyileşme sağladı.

Aynı şey AMD'nin 3 temel işlemcisinde de oldu. Başlangıçta 4 çekirdek işlemciydi, ancak çekirdeklerden birinin kusurlu olduğu belirlendi, bu yüzden devre dışı bırakıldı.


2
sigortaları üfleyerek devre dışı bırakabileceğiniz özelliklerle bir çip tasarımı yapmak nadir değildir. Çip veriminin basit ekonomisi, çipin tamamını veya bir kısmını daha yavaş çalıştırarak veya testte başarısız olan bir özelliği devre dışı bırakarak kurtarabilirsek, tüm parçayı atmak yerine o parçanın maliyetinin bir kısmını geri kazanabiliriz. intel 386 SX ve DX'e örnek olarak geri dönebilirsiniz. ve hemen hemen her işlemci hız dereceli. daha yavaş olanlar daha yüksek hızlarda başarısız olan parçalardır.
old_timer

2
Hayır, 386SX / 386DX değil. Bu çiplerin tamamen farklı bir veri yolu arayüzü var. 386SX almak için 386DX'in bir bölümünü devre dışı bırakmazsınız. Söyledikleriniz, FPU devre dışı bırakılmış olan 486DX / 486SX için geçerlidir.
Michael Karcher

6

Sorunuzun cevabı "Hayır". Şu anda donanım arızaları için otomatik kurtarma yöntemi yoktur.

Üreticiler, gofretlerinden mümkün olan en iyi verimi (dolar) elde etmek için süreçlerini tasarlarlar. Transistörleri daraltarak, daha az alana daha fazla işlevsellik sığdırabilirler. Bu, gofret başına daha fazla yonga (aynı işlevselliğe sahip) olarak düşünülebilir. Çip boyutu küçüldükçe, onlardan daha fazlasını bir gofretten çıkarabilirsiniz, ancak küçüldükçe daha fazla kötüleşir. Üreticiler bunu kabul eder ve sürekli olarak fişleri küçültmek için teknoloji zarfını zorlarlar. Onlara zarfın kenarında olduklarını söyleyen şey kötü çiplerdir.

Bir şirket, özellik boyutunu eski özellik boyutunun% 70'ine çekebilirse, bir gofret üzerindeki yonga sayısının yaklaşık 2 katını alabilir. Eski süreçte verimleri% 95 (bir gofrette 100 üzerinden 95 iyi cips cipsi) ve yeni süreçte verimleri% 75 ise (bir gofrette 200 üzerinden 150 iyi cips) yeni süreç.


5
NAND flash bellekleri gibi bazı yonga türleri için üreticiler, zarfı rutin olarak sıfır hatalı yongaların norm olacağı noktanın ötesine iter, ancak arızaların çoğunun biraz tahmin edilebilir özelliklere sahip olacağı ve yongaları kullanan cihazların onların etrafında çalışmak.
supercat

3

Küçük düğümlerde, SRAM gibi belleğiniz yoksa her "transistör" 2 kapıdır. Biri işe yaramazsa, sadece yavaş bir sürücünüz var. SRAM için, eğer geçmezse, sadece satır "darbe". Transistör üzerindeki FET'lerin her ikisi de başarısız olursa, çok pahalı bir kum parçanız olur, ancak şahsen hiç olmadı. Modern FinFET'ler çok küçüktür, litografi ve olasılığın doğası nedeniyle bir dizi üretim problemi (esas olarak güçlükler) vardır. Yeni süreçlerdeki ilk şeylerin FPGA'lar olduğunu göreceksiniz çünkü kötü hücreleri "patlatabilir" ve yönlendirme grafiğini değiştirebilirsiniz. Sana sayıları veremem, ama x86 dünyasının nasıl bir şey yaptığını tahmin edebilirsin, işler nadiren mükemmel gider.

İşte bir XOR hücresinin düzenini gösteren bir örnek: XOR

Sol / sağ yeşil çubuklar kanatçıklar ve kırmızı poli. Maviler 1. seviyede renkli metaldir.

Ticari CPU'ların bir otomatik keşif mekanizması yoktur, ancak akademide ve özel uygulama CPU'larında yüzen şeyler vardır. Kötü kapılar nedeniyle ortaya çıkan saat sorunlarını çözmek için asenkron mimarileri kullanan bazı özel bileşenler yaptım, ancak bir deliğin oksitinin sadece bir yavaş transistör aldığınız sıcak bir taşıyıcı olarak imha edilmesi.


3

Görünüşe göre zamanlar değişti. Bu sorudaki beş yaşındaki cevapların çoğu artık sanat durumunu yansıtmıyor ve bazıları o zaman doğru değildi.

Transistörler ve silikon üzerindeki diğer cihazlar, IC'nin aşırı ısınmaması koşuluyla üretimden sonra oldukça kararlıdır.

İşte şimdi hataları en aza indirmek için modern bir IC üretim sürecinde yapılanlar:

  • IC'ler, hem tasarım doğrulaması ve doğrulaması hem de bireysel örnek testleri düzeyinde kapsamlı bir şekilde test edilir. Bu makalede Pentium 4 için bazı test prosedürleri açıklanmaktadır.
  • IC'lerin genel tasarımı artık tam olarak doğrulanamayacak kadar karmaşık
  • IC'ler programlanabilir mikro koda sahiptir, bu da üretimden sonra kusurların bulunması durumunda sınırlı derecede yeniden programlanabilirlik sağlar
  • modern IC'ler yedekli silikon tabakalar içererek üretim sırasında keşfedilen kusurların düzeltilmesine izin verir
  • CPU'ların çoğunda CPU çekirdeği, önbellek veya başka bir IP olsun, birçok CPU yedek donanım modüllerine sahiptir; tüm birimler işlevsel değilse, bazıları devre dışı bırakılabilir ve daha düşük maliyetli parçalar olarak "paketlenebilir". Bir örnek, PS4 çok çekirdekli IC'nin daha yüksek verim elde etmek için devre dışı bırakılan bir yedek çekirdek içermesidir .
  • bazı CPU'lar en yüksek hızda çalışır ancak çalışmaz; bunlar daha düşük hız, daha düşük maliyetli CPU'lar olarak satılabilir
  • birçok CPU ve RAM, bütünlüğü sağlamak için veri aktarımının çeşitli aşamalarında hata düzeltme kodlama (ECC) belleği kullanır veya mesaj doğrulama hatası düzeltmesi yapar
  • bazen işlemciler sistem çökmesine neden olacak şekilde başarısız olur, ancak yeniden başlatıldığında sistemin tekrar çalışmasını engellemez (CMOS mandalı)

İşlemcinin resmi spesifikasyonundaki programlama hatalarının belirli bir transistörün arızalarından daha olasıdır.

Ortak CPU'ların bir otomatik keşif yeteneği gibi bir şeyleri olmasa da , kendi kendini sıfırlayan CPU'lar üzerinde kozmik ışınlara karşı bir önlem olarak da çalışmalar yapılmıştır . Kozmik ışınlar bir CPU veya RAM'de bit döndürmeye neden olacak kadar enerji yayabilir.

Yorumlarda belirtildiği gibi, kritik görev sistemleri, uzun süredir doğrulama için birden fazla CPU'ya güvenmiştir. Uzay mekiği, 1976 yılında geri , bir örnek olarak, aynı programı koştu ve güvenliğini sağlamak için tüm uçuş kontrol kararları üzerinde "oy" dördü beş bilgisayarları kullandı.


ECC ve hata tespiti oldukça uzun bir süredir kullanılmaktadır (anılar ve iletişim için, aritmetik ve benzer mantık işlevleri için bazı üst düzey sistemlerde yıllardır hata tespiti yapılmıştır). Benzer şekilde, donanım / yürütme süresindeki maliyetin haklı göründüğü sistemlerde hataları bir süredir tespit etmek için gereksiz yürütme (uzamsal veya zamansal) kullanılmıştır.
Paul A. Clayton

@ PaulA.Clayton, Itanium ve son olarak Xeon RAS özellikleri hakkında bir yazı yaparsanız, kesinlikle bunun için oy vermekten memnuniyet duyarım.
Oleksandr R.

2

Modern işlemci transistörlerinin çoğu FET'lerdir. Bunlar, aşırı yüklenmeye başlarken kaynak / drenaj direnci kazanma avantajına sahiptir. Bu, yüksek güçlü MOSFET'lerin birçoğunu paralel koyarak yapılmasına izin veren bir faktördür. Yük otomatik olarak dağıtılır. Bu, sorunları dağıtmaya yardımcı olan bir faktör olabilir. Ama bence bundan daha basit.

Çoğu elektronik parçada olduğu gibi, bunları spec içinde sürerseniz, bir süre dayanırlar. Mikroişlemci yapıldığında, maliyet için iki faktör vardır. Sadece silikon üzerindeki boşluk ve karmaşıklık nedeniyle gerçek verim. Üretim sonrası tüm talaşlar çalışmaz. Ancak, bir kez yapıldıktan ve doğrulamayı yapıştırdıktan sonra, transistörlerin iyi olduğunu bilirsiniz. Spesifikasyonlar dahilinde kullanılırsa, iyi kalma ihtimalleri vardır.


2

Aynı çipin neden bazen farklı hızlarda satıldığını merak ettiniz mi? Ve bazen aynı GPU yonga mimarisinin farklı sayıda iç ünite ile satıldığını fark ettiniz mi?

Bir donanım arızasını silikon seviyesinde düzeltmenin bir yolu yoktur, ancak zamanla tasarımcılar verimi artırma problemiyle başa çıkmayı öğrendiler . Öngörü olmadan, verim yalnızca üretim kalitesine bağlıdır. Ancak, zekiyseniz, bazı kötü yongaları kurtarabilirsiniz.

Örneğin, az çok bağımsız çalışan 18 çekirdekli bir çip tasarımınız olduğunu varsayalım. Test sırasında mükemmel talaşları sıralar ve A18 modeli olarak serbest bırakırsınız. Çoğu başarısız çipin sadece bir hatası vardır, bu nedenle hatalı çekirdek devre dışı kaldığı sürece iyi çalışırlar. Bunları A17 modeli olarak biraz daha düşük bir fiyata satıyorsunuz ve iki kötü çekirdeğe sahip olanlar A16 modeli olarak daha düşük bir fiyata satılıyor.

Aynı şey bir çipin hız değeri için de geçerlidir. Mükemmel üretilen yongalar, tasarım spesifikasyonunun ötesindeki hızlarda çalışabilir, ancak sorunlu yongalar olmayabilir. Bunlar daha düşük hızlarda satılmaktadır.

Bu yöntem, toplam verimi önemli ölçüde artıracaktır ve bu nedenle oldukça yaygın olarak görülmektedir. Örneğin, PlayStation 3'ün donanımında 8 SPE birimi vardır, ancak verim sorunlarını hesaba katmak için biri devre dışı bırakılır.


1

CPU'nun herhangi bir otomatik kurtarma mekanizması var mı?

Yukarıda açıklandığı gibi hayır. Ancak, önbellekleri, özellikle L2 ve L3, içinde ekstra RAM olabilir. Parça fabrikada test edildiğinde, bozuk RAM blokları çıkarılabilir ve ekstra RAM blokları kullanılabilir.


1

Genel olarak hayır, kötü transistörleri yonga ekranından kapatırsınız ve bundan sonra nispeten küçük bir kayıp yüzdesi beklersiniz. Çip işi onlarca yıldır bu işi yönetmek için çok sayıda hile var (ve evet, bazen hilelerden biri sadece kötü parçaların dışarı çıkmasına ve ücretsiz olarak değiştirilmesine veya müşterilerin mutsuz olmasına izin vermektir).

Radyasyonla sertleştirilmiş ortamlar (boşluk) için muhtemelen üç oylama kullanırsınız, her "bit" in aslında bir tane yapmak için oy veren üç biti vardır. bit ayarını belirlemek sadece üçte iki oy alır. bu yüzden diğer üçüncüsündeki transistörler kötüleşebilir ve sonunda toplam dozda olacaktır. ancak asıl endişe, tek bir olayı üzmek. Bu çipler ve sistemler bu ortamlar için yukarıdan aşağıya, silikon, donanım, yazılım vb.

COTS'un zaman zaman hıçkırması ve başarısız olması bekleniyor.


-1

Bir mucize gibi görünebilir, ancak transistör arızalarının miktarını azaltmak için kullanılan bir dizi mekanizma vardır. Bununla birlikte, transistörün yaşadığı arıza tipine ve nerede olduğuna bağlı olarak, CPU bazen belirli koşullar altında hala kullanılabilir olabilir veya olmayabilir.

Şu anda, genellikle otomatik kurtarma mekanizması yerleşik değildir, ancak bu sorunu en aza indirgemek için yeniden yapılandırılabilir bilgi işlem, artıklık ve diğer teknikler hakkında çok fazla araştırma vardır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.