Bilgisayar değerlendirmeleri: Ne kadar güvenilirler?


14

Rybka ile Fritz 12 bir arkadaşıma bu oyun sonu pozisyonunda beyaz için +3 değerlendirmesi verdi ,

Hareket etmek için beyaz

ki bu bir beraberlik olduğu ortaya çıktı. Ama bir bilgisayardan +3'nin mükemmel oyunla garantili bir kazanç anlamına geldiğini duydum. Sadece yanlış mı duydum? Bilgisayar değerlendirmeleri genel olarak nasıl yorumlanmalıdır? <.5'in açılış avantajları ne anlama geliyor?


4
Ben "garantili kazanmak" yorum meydan. Değerlendirme numarası sezgisel bir göstergedir, temel olarak bilgisayarın pozisyon için sahip olduğu bir "his" tir. Oyunların "şaşırtıcı" sonuçları olabilir ve bilgisayar olası tüm kalıpları algılayacak şekilde programlanmamışsa (veya tüm yolu hesaplayabilirse), bazılarını kaçıracaktır. Başka bir şekilde bakmak gerekirse, +3 gerçekten garanti edilmiş olsaydı, +3 olmazdı, + sonsuz olurdu.
Daniel B

Kayıt için, bunu Lichess 7 parçalı masa tabanlarıyla kontrol ettim ve gerçekten de bir beraberlik.
PhishMaster

Yanıtlar:


8

Burada birkaç şey var.

İlk olarak, her program pozisyonları değerlendirmek için kendi yoluna sahip olacaktır, böylece puanlar doğrudan karşılaştırılamaz. Örneğin, yakın zamanda Rybka'ya karşı StockFish çalıştırıyordum ve Stockish'in puanlarının Rybka'nın iki katı olduğunu gördüm. Buna şaşırdım, ama 1 puanının her zaman "1 piyon" anlamına gelmediği oldukça açık. Sanırım bakmamız gereken puanın nasıl değiştiği. Dün gördüğüm bir başka merak da (diğer sorularınızdan birini tesadüfen cevaplarken) Stockish'in değerlendirme algoritmasının tek sayıları çok sevmemesidir. Aslında skorların çoğu .04'ün katlarıydı. Değerin büyüklüğünün keyfi olduğu göz önüne alındığında, makine bir eş bulduğunu iddia etmedikçe, belirli bir değerin "kesin bir kazanç" anlamına geldiğini varsaymam.

İkincisi, son oyun masa tabanları oluşturuldu çünkü son oyunları çözmek çok fazla arama derinliği gerektiriyor. Turnuva hızlarında oynayan bilgisayarlar bunu iyi yapmıyor. Birkaç gün önce farklı bir oyun üzerinde çalışıyordum ve bu sitede bir tarafın bir avantajı olduğunu duyurdum. Ed, pozisyonda gizem kalmadığını göstermek için bir masa tabanı kullandı - teorik olarak çizildi. Tabii ki, mükemmel oyun ile çizilmiş ve çizilmiş arasında büyük bir fark var; oyuncular doğru hamleleri bulmak zorundadır.


Oyunun ilk aşamalarında genellikle Beyaz'a verilen küçük değer, temel olarak beyazın daha değerli gayrimenkul talep edebileceği anlamına gelir. Örneğin, 1. hamlede, Beyaz e4 iddiasında bulunabilir ve e5 ve f5'e saldırabilir. Siyah karşı koyabilir. Ama sonra Beyaz Nc3 oynayabilir ve a4, b5, d5 ve e4'e saldırabilir / destekleyebilir. Ama Siyah karşı koyabilir. Yani çok az şey ifade ediyor.


Son olarak, konu satırınızdaki soruyu cevaplamak için - değerlendirmeler zor gerçeklere ve etkileyici bir arama derinliğine dayandığından çok güvenilirdir. Elbette, makineler yanılmaz değildir. Ancak biz b oyuncuları, mütevazi donanımda Stockish (veya Rybka) GM güçlerinde oynadığını hatırlamalıyız. En iyi genel donanımda, FIDE 3200'deki derecelendirmelerini tahmin ediyorlar. Bu o kadar yüksek ki, sadece en iyi insanların kaybetmeme şansı az.

Bunun ne anlama geldiğini düşünün; Ben (USCF 1650-imsi) sahip hiçbir sahiptir (diyelim ki 2050 USCF) bir kişiye karşı şansı hiç bir olan bir kişiye karşı şansı (diyelim ki, 2450 USCF) hiçbir bir olan bir kişiye karşı şansı (diyelim ki, 2850 USCF) şeridi a bir üst uçuş ticari programda (FIDE 3200) karşı tesadüfen.

Böylece, Stockish bir hareketin diğerinden daha iyi olduğunu söylediğinde, genellikle yüz değerinde alırım. Oyunsonu masa tabanlarını bağladığımda, bu şey 30'lu yaşlarda olanı duyurmaya başlayacak, lol.


1
Çok güzel bir yanıt. Her zaman 1 değerinde bir değerlendirmenin 1 piyon değerinde malzeme anlamına geldiğini düşündüm. Ayrıca, chesstempo, problemlerindeki en iyi hamlenin en az 2 piyon değerinde malzeme kazananlar olduğunu söylüyor, bu yüzden bir oyundaki aşamadan bağımsız olarak +2 veya daha yüksek bir motor değerlendirmesi yapmayı düşündüm. Ancak, balığın analizinin daha önce hatalı olduğunu gördüm ve son oyunları düzgün bir şekilde değerlendirmenin nasıl başarısız olduğunu gördüm. Bu notta, bir oyunsonu tablo tabanını nerede bulabileceğimi biliyor musunuz?
chubbycantorset

İşte çevrimiçi 6 kişilik masa tablası Ed yayınlanmıştır: k4it.de/index.php?topic=egtb&lang=en
Tony Ennis

+1 için "Herhangi bir değerin, makine bir eş bulduğunu iddia etmedikçe" kesin bir kazanç "anlamına gelmez."
ferit

14

Farklı motorların sayısal değerlendirmeleri için farklı ölçekleri vardır. Örneğin, Houdini +2,00 veya daha iyi bir şey söylediğinde, tipik bir orta oyun pozisyonunda, Beyaz'ın kazanma avantajı olması muhtemeldir (ancak burada bile bir nedenden dolayı yeterlilikleri dahil ettim). Ancak şunu düşünün: Houdini'nin kaynak kodu değiştirilebilir ve değerlendirmelerde yer alan tüm sayıların mutlak değerlerini iki katına çıkarabilir; biri aynı oyun üreten aynı güce sahip bir motor alır, ancak şimdi +4.00, +2.00'ın ne anlama geldiği anlamına gelir. Bu , genellikle kazanma avantajını gösteren motorlar arasında tekdüze bir sayısal eşik beklememesi gerektiğini göstermektedir.

Daha bundan daha olsa da, bu bir pozisyonda (kaçınılmaz dostum salt ilanına karşılık) bir sayısal motor değerlendirme olduğunu anlamak önemlidir asla kesinlikle bile tek, sabit motor için "bir kazandı oyun," çevirir. Kilit nokta, sayısal değerlendirmelerin geniş satranç terimleriyle net bir "anlamı" bulunmaması ve daha ziyade, her noktada hangi hareketi seçtiğini etkileyerek bir motoru mekanik olarak genel olarak istenen sonuçlara yönlendirmek için kullanılan duyarlı düşüncenin yerine geçmesidir. oyunda; bu ışık altında, bir motorun oyunu için nihayetinde en önemli olan , mutlak değerler hakkındaki herhangi bir şeyden ziyade , sadece potansiyel hamlelere atanan değerlendirme farkıdır .içeriyordu. Rakamlar motorun kendisi için faydalıdır, bu da bir hareket için bir diğerine karar vermek için somut bir şeye ihtiyaç duyar, ancak biz insanlar "+ X anlamına gelen düşüncelerle ilgili büyüklüklere daha fazla anlam okumak için çok hızlı olmamalıyız. bir galibiyet. "

Özellikle, bir orta oyunun aksine bir oyunsonuna doğru ilerledikçe, belirli bir eşiğin bir galibiyet için yeterli olduğu konusunda bir başparmak kuralını (yukarıdaki orta oyunlarda Houdini için +2.00 gibi) kullanabiliriz. Bunun temel nedenlerinden biri, motorların fazladan malzeme bolluğunun hala kazanmaya yetmediği kaleleri tanıma güçlüğüdür. Örneğin, Stockish bu pozisyonu beslediğimde,

NN - NN

birkaç dakika sonra +7.00 hakkında bir değerlendirme verdiğini düşündüm ve tipik bir pozisyonda, Stockish derken, neredeyse kesinlikle ellerinizde bir kazanç var. Bununla birlikte, bu ölü bir beraberliktir ve Siyah'ın f6 ve h6 arasındaki kaleyi sadece karıştırabildiği ve (1) h-piyon işe yaramaz ve (2) beyaz kral asla beyaz kraliçe saldırısına yardım edemez. Sonunda , Stockish, 50 hamleye karşı çıkıp, son olarak denemek için farklı hamlelerden kaçtığında ve nihayetinde bir tekrardan kaçınamadığında, burada da bir beraberlik tanıyacaktır, ancak bu olaylar arama derinliği çizgisinin aşağısındadır.

Bağlandığınız önceki sorunuzdaki son oyun pozisyonu, bu tür bir kaleye benziyor, çünkü ekstra bağlı geçen piyonlar Beyaz'ın hoş ve hepsi var, ama sonuçta bu pozisyonda kazanmak için yeterli değil. Bir motor, tablo tabanlarında olduğu kadar bilgi görmek için yeterli zamanı hesaplayacak olsaydı, değerlendirmesi 0'a düşecekti, ancak bu arada, değerlendirme algoritmasının bunun için + vermekten daha iyi bir şeyi yoktur. ekstra malzeme (henüz bilmediği anlamsızdır).


+1 için "Bundan daha fazlası, bir pozisyonun sayısal bir motor değerlendirmesinin (kaçınılmaz eşin açık bir beyanının aksine) asla kesinlikle kazanılan bir oyuna
ferit

8

Bence bu tablo durumu oldukça iyi anlatıyor. 400k oyunlardan oluşturuldu ve sadece düz parça malzemeyi düşünüyor.

Kazanma Olasılığı / Piyon Avantajı

Kaynak: Piyon Avantajı, Kazanma Yüzdesi ve ELO


1
Güzel katkı! +1
ferit

@Thomas Ahle: Grafik ilginç. Ancak orijinal makale artık mevcut değil, wikispaces bağlantısı ne yazık ki azaldı. W = Kazanma Olasılığı'nın tam anlamını hatırlıyor musunuz? Çekilişleri görmezden gelmek vs kaybetmek miydi? Yoksa çekilişleri dikkate alarak "beklenen puan" mıydı?
Diedrsch

@Diedrsch Bağlantıyı güncelledim
Thomas Ahle
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.