Nash dengesinin hesaplamalı sınırlı versiyonu?


14

Nash denge kavramının hesaplamalı olarak sınırlı bir versiyonu olup olmadığını merak ediyorum, aşağıdaki satırlarda bir şey var.

Bir tahtada oynanan ve en uygun oyunun EXPTIME zor olduğu için karmaşık olan bir tür iki kişilik mükemmel bilgi oyunu hayal edin . Ayrıca, çizimlerin mümkün olmadığı basitlik için olduğunu varsayalım. Bu oyunu birbirine karşı oynayan bir çift ( A , B ) randomize polinom-zamanlı Turing makinesi düşünün . Her biri için , n , izin s A , B ( n ) olasılığı olduğu bir atım B bir emir-de , n oyun. (Somut olmak için, diyelim ki An×n(A,B)npA,B(n)ABnAolasılık 0.5 ile ilk oynamaya başlar.) Bence serin olacağını düşünüyorum, bir çift varlığını ispatlayabilir eğer hiçbir randomize polinom-zaman Turing makinesi A A hakim (burada " A ağırlıkta olmak bir "anlamına gelir s A ' , B ( n ) > s A , B ( n ) her yeterince büyük için n ), ve benzer bir makine Turing polinom-zaman randomize B '(A,B)A AAApA,B(n)>pA,B(n)nBağırlıkta olmak ( " B " hakim B araçları" s A , B ' ( n ) < p bir , B ( n ) her yeterince büyük için n ).BBBpA,B(n)<pA,B(n)n

Her nasılsa, bunun umut etmek için çok fazla olduğundan şüpheleniyorum, ancak böyle bir şeyin gerçek olması için, belki de sınırlı bir oyun sınıfı için herhangi bir umut var mı?

Bu soru için bir motivasyon, belirli bir satranç pozisyonunun "Beyaz için avantajlı" olduğu fikrini resmileştirmenin bir yolunu arıyorum. Klasik olarak, bir pozisyon ya Beyaz için bir kazançtır ya da değil. Ancak, satranç oyuncuları, hem insan hem de bilgisayar, Beyaz'ın bir avantaja sahip olmasının ne anlama geldiğini sezgisel bir şekilde anlar. Oyuncuların hesaplamalı olarak bağlı oldukları ve en iyi hareketle tahmin etmeleri gerektiği göz önüne alındığında, Beyaz'ın kazanma olasılığı ile ilgili bir şey var gibi görünüyor. Belirli bir randomize algoritma çifti için elbette Beyaz'ın kazanma olasılığı hakkında konuşabiliriz, ama bir anlamda bir kanonik olabileceğini merak ediyorum. kazanma olasılıkları, oyuncuların kendine özgü özelliklerine değil, sadece oyunun kendisine bağlı bir pozisyon için bir değer veren hesaplamalı sınırlı oyuncular çifti.


Biliyorum bilişimsel olarak sınırlı denge kavramlarının farklı bir lezzeti var - Halpern, Pass ve Seeman'ın Halk Teoreminin Efsanesinin Arkasındaki Gerçekte olduğu gibi düşünülmesi , 2014. Orada verilen oyun için bir denge stratejisi bulmanın varsayılmaz. zordur (çünkü belirli bir oyun için olabilir veya olmayabilir). Aksine, herhangi bir oyuncunun karlı bir sapma hesaplaması zorsa, herhangi bir strateji setinin denge olmasına izin veririz. (Bunun üstel strateji alanı olduğunu varsayarsak, aksi takdirde tüm sapmaları kontrol edebiliriz.)
usul

Yanıtlar:


1

Bu soruya kolay, tamamen zarif / tatmin edici bir cevap olabileceğini hiçbir şekilde düşünemiyorum, özellikle de son ödemenin hesaplanması çok zor olduğu için; ancak, düşüncelerim yorum olarak yayınlamak için çok uzun.

Sahip olduğum en iyi fikir şudur: Satranç durumunda, beyazın belirli bir pozisyon için belirli bir pozisyon için beyazın maddi avantajına (yani ekstra piyonlar, şövalyeler, vb.) Dayalı kazanma olasılığını tahmin etmeye çalışın. malzeme konfigürasyonu. Belki de "all-rooks satranç" durumunda, "Beyaz'ın 8 kaleyle Black'in 17 kalesine kazanma olasılığı nedir?" Diyebiliriz. Belki de bu olasılık% 4'tür; Bunu hesaplamak için, 8 beyaz kaleye ve 17 siyah kaleye sahip 1000 farklı rastgele oluşturulmuş satranç pozisyonunu incelemeli (diyelim) ve her durumda 10 hamle derinlemesine bakmalıyız ve yeni malzeme konfigürasyonunun ne olduğunu görmeliyiz . Ardından, sondaki malzeme yapılandırmasına göre beklenen oranları alın,

Elbette , M beyaz kalelerin N siyah kalelere ilişkin her olası olasılığı ( M , N ) için malzeme konfigürasyonunu bulmak gerekir ... muhtemelen en düşük sıralı çiftten ( M = 1, N = 1) başlayıp çalışıyor oradan.

Orijinal pozisyon için, sadece aldığınız istatistikle gitmeyin (yani, orijinal pozisyonun ( M = 6, N = 7) kaleleri varsa, Beyaz'ın% 25 kazanma şansına sahip olduğunu varsaymayın, çünkü beklenen zafer oranları (6,7)); bunun yerine, daha hassas olabileceğiniz için, sadece bu tek konumla her zamanki gibi 10 hamle derinlemesine bakın ve mümkün olan her son konumu bulun. Ardından, 10 hamle derinliğinde bir yapılandırmaya doğru yolu (her iki tarafın da en iyi oynamayı içerir) bulun ve bu yolun beklenen oranlarını orijinal konumun beklenen oranları olarak seçin.

Bu sürecin polinom zamanında yapılabileceğini düşünüyorum. Looking k derin sabit için hamle k satrançta kurulu boyutunda polinom olduğunu ve bu sayı kurulu boyutundan daha küçük olmalıdır, çünkü beyaz ve siyah kalelerime toplam sayısı (bir anlamda) tekli olarak ifade edilir.

Bu karmaşık ve açıklanması zor geliyorsa, çünkü. Tarif ettiğim şeyin daha özlü bir özeti şudur: Tahtada M beyaz ve N siyah kaleler verilen beyaz için zafer oranlarını hesaplamak için özyineleme ve temel istatistikleri kullanın . Sonra bu değerleri k derinliklerine bakmak ve Beyaz'ın orijinal pozisyonda kazanma olasılığını belirlemek için kullanın.

Son yorum: Bu sorunun tic-tac-toe gibi EXPTIME-tamamlanmamış oyunlar için de ilginç olduğunu düşünüyorum, Wikipedia'ya göre PSPACE-complete. Ayrıca, yukarıda tarif ettiğim gibi bir sürecin orada da yararlı olabileceğine inanıyorum, ancak belli ki tic-tac-toe'de "maddi" bir avantaja sahip olmak imkansızdır; X veya O'nun konumunun üstünlüğünü değerlendirmek için başka bir temel olması gerekirdi.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.