Alfa Sıfır “daha insan” nasıl?

35

AlphaZero hakkında muhtemelen saf bir sorum var. Diğer bilgisayarlardan daha "insan" tarzında bir oyun olarak nitelendirildiğini gördüm, ancak ne yaparsa yapsın, yaklaşık 100 ELO puanı kazanıyor. Kasparov ve diğerleri, bir bilgisayarla işbirliği yapan güçlü bir insanın güçlü bir bilgisayarı (belki de yaklaşık 100 ELO?) Yeneceğini iddia etti. Öyleyse bariz bir soru, AlphaZero'nun "centaur" kombinasyonuyla nasıl karşılaştırılacağı?

Sadece birkaç oyuna baktığımda, farkettim ki çoğu bilgisayar kendi mobilitesini en üst düzeye çıkaran geniş açık oyunlar oynuyor, ama AlphaZero rakip mobiliteyi sınırlandırmaktan çok endişeli görünüyor. Bir insan oyuncuda bunu, az ya da çok insan olmayan bir stil meselesi olarak tanımlardım.

— Philip Roe
kaynak

4

Buna değer, Kasparov'un bu iddiası çok eski. Bir insan ve işbirliğindeki bir bilgisayar ("gelişmiş satranç" veya "centaur satranç") artık bir bilgisayarı kendi başından daha iyi hale getiremez - bilgisayarlar sadece çok iyi - Fotoğrafçı Magnus Carlsen için ~ 2825'e kıyasla ~ 3400 IIRC civarında bir yerde puan aldı - .

— Stephen Touset,

8

@StephenTouset Sadece motorlar için Elo derecelendirmelerine dikkat edin. En çok gördüğüm olanlar, gerçek bir insana standart hale getirilmemiş motor vs motor karşılaştırmaları. İlgili Vikipedi alıntı: "Bu reytinglerin [...] FIDE Elo reytingleriyle veya insan oyuncuların diğer satranç federasyon reytingleriyle doğrudan bir ilişkisi yoktur. SSDF'nin yıllar önce düzenlediği makine oyunları hariç bazı erkekler hariç Bugünün seviyesinden), bu derecelendirme listelerinin hiçbiri ile oyuncu havuzları arasında herhangi bir kalibrasyon yoktur. "

— mbrig

1

İnsanların standart zaman kontrollerinde yapabileceğini ancak yapamayacağını düşünüyorum. Uzun yazışma oyunları iyi olmalı.

— SmallChess

4

ugh, AlphaZero bir Google ürünüdür. Bu nedenle, diğer şirketlerin ürünlerinden daha fazla propaganda duyacağınıza şaşmamalı. Sanırım yazarlarla ve yayıncılarla daha iyi anlaşmaları var. Waymo hakkında bir şey gibi, bir tuz yığını ile alın.

— coderworks

33

Gazetede bulunan 5. sayfada cevabınız:

... AlphaZero, derin sinir ağını kullanarak en umut verici varyasyonlarda çok daha seçici bir maliyetle satılıyor - belki de satrançta daha "insan benzeri" bir yaklaşım ...

"seçici olarak" anahtar kelimedir. Bu ne anlama geliyor? Bu pozisyonu örneğimiz için kullanalım:

https://chess24.com/en/read/news/london-classic-5-caruana-shows-how-it-s-done

Bu, 2017 London Chess Classic'te Caruana tarafından kazanılan son oyundur. Beyaz Piskopos saldırı altında ve onu taşımak zorunda olduğunu biliyorsun. Ama nerede?

Olasılıklar (bir parçayı kaybetmemek):

BH4
Be3
Bd2
BC1

Caruana ne düşünüyordu?

Bir noktada kaybedeceğimi hissettim, ama gördüğümde, 25.Bc1 Birden bire şansım konusunda biraz daha iyimser olmaya başladım. Durumumun kötü olduğunu fark ettim, ama en azından bir planım vardı ve bu pozisyona güven duymam için tek ihtiyacım olan buydu. Bu b3, c4'ü gördüğümde konum çift kenarlı ve bazı şanslarım var.

Bu insan düşüncesi ve bir "insan hareketi". Caruana , Bh4, Be3 ve Bd2'yi dikkate almamıştı çünkü “kötü görünüyordu”. Sadece ve sadece Bc1 hareketine odaklanıyordu .

İnsanlar çok seçici bir şekilde satranç oynuyorlar , mantıksız hamleleri atıyoruz, çünkü tüm olasılıkları eşit olarak incelemek için zamanımız yok.

Bh4'ü atıyoruz, çünkü h6 piyonundaki gerilimi serbest bırakıyor.
Be3'ü atacağız çünkü üçüncü sırada iki beyaz kaleyi engelliyor
Bd2'yi atarız çünkü Beyaz Kraliçeyi kral tarafına tıkar.

AlphaZero'nun gazetede hak iddia etmeye çalıştığı şey bu. Onlar stockfish daha yavaş olmasına rağmen, yapabiliyor, kendi algoritması iddia seçici daha iyi almak arayışında stockfish daha hamle. Stockfish daha hızlı olsa da, kötü hamlelerde zaman harcıyor. AlphaZero yavaştır, fakat daha kesindir (Caruana'nın yaptığı gibi).

Örneğin, AlphaZero Bc1'de% 80 ve diğer tüm fillerde% 20 harcayabilir. Stockish her hareket için% 25 verebilir (Bh4, Be3, Bd2, Bc1).

— SmallChess
kaynak

1

Bu yüzden, temel olarak, oyun stili mutlaka daha fazla insan değil, bir sonraki oyun hamlesinin ne olduğunu bulma yaklaşımı. En azından kağıda göre. Ayrıca, onu düzenleyemem, ancak Caruana'daki teklifinizde oldukça büyük bir yazım hatası var: "B3'ü gördüğümde, c4" olmalı "Bu b3'ü gördüğümde, c4"

— Arthur

@Arthur Kağıda göre (ve sadece kağıda), oyun stili mutlaka daha fazla insan değildir. HAYIR demiyorum, ama gazetede hiçbir şey böyle yazmıyor.

— SmallChess

Monte Carlo algoritmaları, keşif x kullanımını kontrol etmek için bir parametreye sahiptir, bu yüzden alfa-beta asla (zamandan dolayı) düşünmeyecek şekilde hareket eder, alfa sıfır yapar.

— Fernando

@Fernando Neye yanıt verdiğinizi açıklayabilir misiniz? Noktayı görmek için mücadele ediyorum. Ayrıca 'asla zamandan dolayı düşünmeyin' ile kafam karıştı. Alfa-beta araması, önceden keşfedilen diğer şubelerden açıkça daha kötü olan dalları göz ardı eder. Bunun zamanla ne alakası olduğunu anlamıyorum.

— IA Petr Harasimovic,

Temel olarak, bir çizgi +0.32 ve diğeri +0.13 ise, AlphaZero eskisi üzerinde zaman harcar.

— Jossie Calderon

16

Çoğu güçlü motor, yüzeysel bir değerlendirme işlevine sahip olmak pahasına derinden bakmayı vurgular. AlphaZero gazetesinde, Stockish'in saniyede 70 milyon pozisyona baktığını söylüyorlar.

İnsan büyükbabalar, motorlara kıyasla çok az sayıda pozisyona bakıyorlar, ancak belirli bir pozisyonda kimin daha iyi olduğunu daha iyi hissediyorlar.

AlphaZero saniyede sadece 80.000 pozisyona baktı, bu yüzden değerlendirme fonksiyonunda çok daha fazla zaman harcıyor.

Onların "daha fazla insan gibi" anlamına geldiği duygusu, başka bir şey değil.

— RemcoGerlich
kaynak

11

AlphaZero zaten düzenli bir "centaur" -> benzetme GM gibi motor yardımı ile oynuyor gibi görünüyor.

Bir FM olarak normal bir motora kıyasla AlphaZero oynamaktan daha fazla zevk alırdım.

Bir karşılaştırma Karpov'un mükemmel taktikleriyle oynadığı gibi oynayacaktı. (Oyun 9 AlphaZero, Tal gibi olan 15 milyon parçadan aşağıya).

Bu sadece stil değil, AlphaZero pozisyonları Stockish'ten daha iyi anlama izlenimi veriyor.

AlphaZero ayrıca şu ana kadar ALL satranç motorlarının uğradığı Horizon Effect'ten de muzdarip değil. Zaman ve tekrar, bir pozisyonu Stockfish'ten daha fazla hamle yaparak doğru bir şekilde değerlendirebiliyor.

İşte bir örnek:

AlfaZero - Stockfish, Alphazero vs Stockfish: AlfaZero - Stockfish, 2017-12-05, 1-0

1. d4 e6 2. e4 d5 3. NC3 AF6 4. e5 Nfd7 5. f4 C5 6. Af3 Piyon sadece kareler cxd4 7. Nb5 Fb4 + 8. Bd2 Fc5 9. b4 Fe7 10. Nbxd4 Ac6 11. c3 a5 b5 12. Nxd4 13. cxd4 Nb6 14. a4 NC4 15. BD3 Nxd2 16. Kxd2 BD7 17. Ke3 B6 18. g4 H5 19. QG1 hxg4 20. Qxg4 Ff8 21. H4 Qe7 22. Rhc1 g6 23. Rc2 Kd8 24. Rac1 Qe8 25. Rc7 Rc8 26. RXC8 + Bxc8 27. Rc6 Bb7 28. Rc2 KD7 29. NG5 Fe7 30. Bxg6 Bxg5 31. Qxg5 fxg6 32. f5 RG8 33. Qh6 Qf7 34. f6 Kd8 35. KD2 KD7 36. Rc1 Kd8 37. QE3 Qf8 38. QC3 Qb4 39. Qxb4 axb4 40. Rg1 B3 41. kc3 Fc8 42. Kxb3 BD7 43. Kb4 Be8 44. Ra1 Kc7 45. a5 BD7 46. axb6 + Kxb6 47. Ra6 + Kb7 48. Kc5 RD8 49. Ra2'nin Kc8 + 50 Kd6 Be8 51. Şe7 g5 52. hxg5 1-0

| <Başlat << Geri çevir Sonraki >> End> |

AlphaZero kralı 16. merkeze oynuyor. Kxd2! Ortadaki oyunda doğru bir şekilde Black'in bundan faydalanamayacağına karar verir.

Bir parça fedakarlığını 30 doğru olarak değerlendirebilir. Bxg6! Düzenli motorlar bir kaç hamle için kaybolduklarını göremezler.

f5 de oldukça hoş.

Oyun 3'teki Kurban Satışı gibi başka örnekler de var.

— Sint
kaynak

8

Alpha-Zero'nun oyununun, önceki bilgisayar satranç programlarından ziyade 'insan' olduğunu söyleyen bir grup kavgası üzerinde atlamak ve Alpha-Zero'nun oyununun tamamen “yabancı” olduğunu söylemek kolay. Alfa-sıfırın oyununun, özellikle insanlığa antropomorfizme olan eğilimi göz önüne alındığında, “daha insan” olduğu açık değildir.

İnsan Aklının Mücadelesi Olarak Satranç

Fakat satrançta bu eğilim doğru mu? Magnus Carlsen, bir keresinde genel olarak 'geleneksel' bilgisayarların insan yaratıcılığından nasıl yoksun olduğunu söyledi:

“Satranç, insan zihinleri arasındaki mücadeleyle ilgili. Heyecan verici kılan şey bu. Bilgisayar satranç mekanik, kuru ve yumuşak. Hareketler çok güçlü, elbette, ama stil yok. Bir satranç bilgisayarına karşı oynamayı denersen , sadece çok yüksek bir kesinlikte kaybedeceksiniz değil, aynı zamanda süreçte sıkılacaksınız.

Magnus Carlsen, geleneksel satranç bilgisayarlarında insan tarzı oyun kanıtı görmedi. Öyleyse, Alpha-Zero'nun son başarısının bu perspektifi geri alıp almadığını ve bizi kendimizi daha fazla hatırlatan bir şeye götürdüğünü inceleyelim.

Eğer 'insan-benzeri' ile kastediyorsanız, 'antropomorfizm anlayışımıza çekici gelebilecek bir davranış sergilemek' anlamına geliyorsa, Alfa-sıfır'ın tarzı daha insani görünüyor mu? Bu öznel miyopi insanları, insan olmayan şeyleri yansıtmayı gerçekten nasıl test ediyoruz? Haydi soralım: algoritması “seçici olarak daha iyi” seçiyor mu, yoksa oyun tarzında “daha insani yaratıcı bir seçim” sergiliyor mu?

Algoritmanın yaratıcıları stockfish aksine bir Alfa-Beta arama algoritmasını kullanan belirtmek Alpha-Zero ağırlıklı parametreler ~ önceki sonuçların elde inşa İçeride ISTV melerin RWMAIWi'nin girdi olarak kabul eden bir Monte-Carlo ağaç arama (MCTS) algoritması kullanır Sayfa 3. Mastering satranç ve Genel Takviye Öğrenme Algoritması ile Kendi Kendine Oynanarak Shogi ).

Bu yüzden algoritma hiç seçenek göstermiyor. Aslında, rastlantısal ama olasılıklı bir Monty-carlo araştırmasıyla meşgul olur, burada mümkün olan olası arama yolları önceki sonuçlara göre daha fazla önyargılıdır. Alpha-zero, oyun tarzını bu şekilde optimize etmeyi seçti mi, yoksa programcılarının seçimi miydi?

Alpha-zero, her zaman göz önünde bulundurulacak mümkün tüm hamlelere sahip midir, yoksa insanlar tarafından antropomorfik olarak yorumlanabilecek deneyimleri taklit edecek şekilde algoritmik olarak önyargılı bazı hareketler var mı?

Başlangıçta, onun için tüm hareketler mevcuttu, bu yüzden 'stili' tamamen rastlantısaldı. Bununla birlikte, araştırması gittikçe artan ve optimal olarak önceki başarı veya başarısızlıkla sınırlandırıldığından, stili aslında programcılarının uğraştığı moda doğru değişiyor. Bu 'daha insan' olsa da mı? Bunu daha yaratıcı olduklarından bazen daha az optimal hamle seçecek olan Magnus Carlesen ile karşılaştırın :

Magnus Carlsen: “Benzersiz bir şey yaratmayı takdir ediyorum”

(Yabancı) Aklın Mücadelesi Olarak Satranç

İnsanlar kendi oyun tarzlarını belirleyen kriterleri seçebilirler (örneğin kendi tarzımda sık sık dürtü ve hata seçtim). Her iki Satrançta Birçokları Alfa-Zero'nun oyun ve gidip kesinlikle olarak yabancı . MIT Bilgisayar Bilimi ve Yapay Zeka Laboratuvarı'nda (CSAIL) yüksek lisans öğrencisi Nick Hynes şunları gözlemliyor:

“Burada gördüğümüz şey, insani önyargılardan ve önyargılardan arınmış bir model: Ne tespit ederse edin, optimal olanı öğrenebilir, bu da aslında aynı düşüncelerimizden daha farklı olabilir. Zaman yolculuğu gibi şeyler yapmasına izin veren kendi matematiğini icat eden yabancı bir medeniyet gibi… ”

Aynı şekilde GM Peter Heine Nielsen da Chess.com’a şunları söyledi :

“Gazeteyi okuduktan sonra, özellikle düşündüğüm oyunları gördükten sonra, her zaman üstün bir türün yeryüzüne inip bize nasıl satranç oynadıklarını göstermesinin nasıl olacağını merak ettim. Şimdi biliyorum.”

Görünüşe göre çoğu Alpha-zero'nun ortaya çıkan oyun tarzına “yabancı oyun” olarak değil, “daha insan” olarak tepki veriyor.

Bu nedenle, yukarıdaki cevaplara 'evet' diyenlere katılmamak için sebep var.

— user34445
kaynak

3

Cevabınız yerlerde oldukça yanıltıcı ve yanlış. MCTS kullanımı kritik bir fark değildir, bu yüzden Stockish'i yendi. Alfa-beta aramayı da kullanabilirlerdi, sadece MCTS'nin onlar için daha iyi çalıştığını düşünüyorlardı. AlphaZero algoritmasının ana unsurları çok derin bir evrişimsel sinir ağı, donatı öğrenme (yani ağ kendi kendine çalma tarafından ayarlanmıştır) ve bir ağaç aramasıdır (bu MCTS olur ancak bu gerekli değildir). İçinde el yapımı hiçbir şey bulunmadığından “tarzı aslında programcılarının üstesinden geldiği moda doğru değişiyor” ifadesi yanlış.

— IA Petr Harasimovic,

“Satranç, insan zihinleri arasındaki mücadele ile ilgili. Heyecan verici kılan şey bu. Bilgisayar satranç mekanik, kuru ve yumuşak. Hareketler çok güçlü, elbette, ama stil yok”. Herhangi biri, bir insan ya da bilgisayar olabilen isimsiz bir rakip oynayan bir dizi GM ile iyi yapılmış bir Turing-test tarzı deneyi yaptı mı?

Amacımın, MCTS'nin kritik bir fark olduğuna inanıyorsanız (Alfa-sıfır ile Stockish arasında) - benim fikrimi kaçırıyorsunuz. Demek istediğim, algoritmalar değil insanlar, Alfa-sıfır'ın oyun tarzına karar verdi, Alfa-sıfır'ın kararına karar verdi. Demek istediğim, bu insani seçimlerin, insanlara karar vermeyecek şekilde GM'leri ve amatörleri etkileyen bir oyun stili kazandırdığı görülüyordu.

— user34445

Dr Eval check-out - cs.stackexchange.com/questions/68249/…

— user34445

1

@ user34445 Aslında, paragrafın bir anlamı olmadığını düşünüyorum, sadece rasyonelleştirmeye çalışıyordum. İnsanlar AlphaZero'nun oyun stiline karar vermediler, öğrenme stiline karar verdiler. Satranç oynamayla ilgili görüşleri hakkında kesinlikle bir fikir vermediler.

— IA Petr Harasimovic

5

Hayatta kalmak için inanılmaz derecede ilginç bir zaman.

1970'lerden başlayarak satranç bilgisayarları, alfa beta budama kullanan minimax-ağaç tabanlı arama algoritmaları olmuştur. Bu programlar hem bilgisayar hızı hem de paralellikteki gelişmeler ve dalları budamak ve yaprak düğümlerini seçmek için kullanılan sezgisel değerlendirme işlevindeki gelişmelerden dolayı daha da güçlendi. Ancak insanlar uzun zamandır materyalist ve sıkıcı bilgisayar oyunlarının ne olduğunu fark ettiler ve birçok insan (kendim dahil) “insan” sezgisini yazılıma kodlamanın imkansız olduğunu düşündü.

Ama bu oyunları gördünüz mü?

AlphaZero, uzun vadeli pozisyon avantajı için çeşitli materyal fedakarlığı örnekleri de dahil olmak üzere inanılmaz derecede güzel bir oyun sergiliyor. Bu, insan ustalarından en güzel oyunların bazılarını hatırlatıyor, ancak aynı zamanda rakipsiz teknik doğrulukla. Bu, hayatımda bilgisayar tarafından üretilen ve aynı zamanda derin güzellikte bir şey gördüğüm ilk örnek .

Centaur Talebi:

Garry'nin bunu defalarca söylediğini duydum ama bu doğru değil. Ya da en azından, sahnede AlphaZero ile artık doğru olmayacak.

Bunu hayal edin: 5.000 tanesi tamamen taktik (ancak çoğu zaman birbiriyle ilgisi olmayan) ve 5.000'i çoğunlukla konumsal (ama çoğunlukla ilgisiz) olan 10.000 ilgili devam eden bir parça kesesi var. Bir insan nasıl bir hata yapmadan tüm bu varyasyonları ele geçirebilir? AlphaZero şimdi bu son derece yaratıcı hareketlere bakabiliyorsa, bir insan muhtemelen ne yapabilir?

Son sınır:

Brute-hesaplamanın hala derin sinir ağlarını dövdüğü bir yer kalmıştır: bitiş oyunları. Bir masa tabanını yenecek hiçbir sezgi yoktur. Ancak bir tablo tabanı gerektiren sonlar (çünkü bir arama ağacı sadece doğru hareketi hesaplamak için yeterince derin olamaz) oldukça nadirdir. Ve bir masa tabanını AlphaZero'ya takabilirsiniz, ancak bu “kendi kendini yetiştiren” bir motorun saflığını mahveder, değil mi?

— Fixee
kaynak

3

İnsanlar, geleneksel bilgisayar satranç programları (fritz, stockfish ve diğerleri) gibi derin arama yapabilme yeteneğinden yoksun olduklarından, 'stratejik ilkeler' veya genel kurallar (merkez kontrol, geliştirme, kral güvenliği) ve çok çeşitli alanlarda uygulanabilir kavramlar ve püf noktaları yaratırlar. fedakarlık, bağlı kancalar, piskopos çifti, özel sonlar gibi farklı şekillerde durumlar; örneğin kralı bir kale ve bir piyonla nasıl köşeye sokacağınız.

Alfa sıfırın bu tür birçok kavramı (algı ve kavramlar) bağımsız olarak yeniden icat ettiğini ve tonlarca yenisini de öğrendiğini düşünüyorum - çünkü bilgisinin insan değerlendirme işlevleri üzerine inşa edilmesi gerekmedi ve her zaman rakibi olduğu varsayılan güçlü minmax araştırması bir deha.

Tabii ki, bu tür prensiplerin kendileri bazı durumlarda çatışır, bu nedenle çeşitli açılış oyunları ve tuzaklar dikkatlice incelenir - örneğin, çok yakında kraliçe geliştirme.

Öte yandan insanlar, bir parçasını kaybettikten sonra (değişim olmadan) kuvvetlerinizi zayıflattığınızdan, tazminat olmadan bir parçayı kaybetmeme konusunda son derece dikkatli olduklarını fark ederler.

Alphazero'nun oyununun, bilgisayar satrançını (ve insan satrançını), slavların küçük materyalleri kaybetme korkusundan kurtardığını ve kitapların ve parça değerlerinin açılmasının gereğinden fazla olduğunu söyledi.

Alphazero oyunları, merkez kontrol, geliştirme, alan, inisiyatif gibi “stratejik ilkeler” gibi şeyleri gösterir, eğer rakibiniz özensizse çok daha önemlidir. Başka bir deyişle, 'fedakarlık' gerçekten fedakarlık değildir, fakat inisiyatif, pozisyon, yönlendirilmiş harekette bir kazanç elde etmek için işlem yapar.

Alphago (sıfır değil) insani değerlendirmeye dayanıyordu, ancak alphazero tüm değerlendirme zincirini 'arama veya simülasyon' olarak sona erdirmek için tek bir uç olarak kurar ve tamamen yeni bir oyun oynama yolu bulur.

Eğer düşünürseniz, Morphy, Fischer, Kasparov gibi geçmişin büyük ustaları, tipik olarak özel durumlardan faydalanarak taş üzerine yazılı değerlendirme ile sınırlandırılmadıkları bu tip bir karşı-sezgisel oyun için alkışlandılar. ortaya çıkar. Alfa sıfırın oyunlarının böyle bir 'vay' faktörü olduğunu düşünüyorum.

Neden sinir ağları. Sembolik gösterimi ve ayrık arama kullanan bilgisayar programları sadece 'bir' düşünme biçimini kullanabilirken, sinir ağları alternatif, çelişkili değerlendirmelerle durumları paralel olarak işler ve daha sonraki katmanlarda daha değerli görünüme geçer.

— Ravi Annaswamy
kaynak

2

Oynadığı hareketler anlamında daha fazla insan, insan yaklaşımıyla az çok çakışıyor gibi görünüyor: uzun vadeli avantaj, pozisyon fedakarlığı, parça faaliyeti için oynamak. İnsan satranç bilgisiyle bariz bir yakınsama var ve yüzyıllar boyunca rafine edilmiş stratejik ilkeler var (örneğin, aynı açılışları "keşfetti"). AlphaZero'nun insan yapımı satranç bilgisi ile ekilmemiş olması gerçeği göz önüne alındığında, bu dikkat çekicidir.

Ancak benzerlikler burada sona eriyor. AlphaZero onu bir sonraki seviyeye götürür ve daha iyi yapar ve bir şekilde insanlar asla düşünmedi. AlphaZero makaleyi alıntılamak için "insanüstü" yeteneklere sahiptir: "AlphaZero insanüstü bir oyun seviyesine ulaştı [...]" ( https://arxiv.org/pdf/1712.01815.pdf ). Ayrıca, insanın doğasında var olan zayıflıkları da yoktur: insanları sınırlayan konsantrasyon sorunları, korku, yorgunluk, duygular, sezgi vb. Silikon beyni, gerektiğinde insani özelliklerin ötesinde taktiksel kombinasyonlara izin verir.

— AdamL
kaynak

2

O zaman bir paradoks var. Stockish insan deneyiminden yararlanır; Alphazero yapmaz. Fakat Alfa sıfır daha insani görünüyor. Yani, belki de yapmadık, Stackfish kuşağında düşüncelerimizi distile etmek için çok iyi bir iş

— Philip Roe

1

Genelde incelikli ve içgörüyle bu soruya cevap veren herkese teşekkür etmek istiyorum. Yanıtlardaki temel fark, bana öyle geliyor ki, insan kelimesinin yorumunda.

AlphaZero, insan satrançını gözetim ve yanlış hesaplamalar anlamında oynamaz, ancak “düşünce” süreci, yüksek bir biçimde, en güçlü oyuncuların ne düşündüğünü düşündüğüme karşılık gelir. Oynamak istediğiniz "aday hamle" nin listesini oldukça hızlı bir şekilde hazırlıyorsunuz ve en güçlü oyuncular için bu liste şaşırtıcı derecede doğru, hatta bir dakika içinde farkedilir derecede mantıklı bir oyun oynuyor. Zamanın geri kalanı, listedeki hareketlerden hangisinin gerçekten işe yaradığını sormaya harcanır? Petrosian, sonunda oynadığı hamlenin ilk düşündüğü şey olduğunda en çok formda hissettiğini söyledi. En çok oynamak istediğimiz hareket taktiksel olarak oynanabilir hale geldiğinde, bunun ne kadar tatmin edici olduğunu hepimiz biliyoruz. AlphaZero algoritmasıyla, AlphaBeta araştırmasından çok daha kolay bir şekilde ilişki kurabilirim.

En ilginç görünen şey, makinenin, kendi kendine oynayarak, gelecek vaat eden adayları nasıl tanıyabildiğidir. Potansiyel gerçek devrim için yatar. Bunun yalnızca hedeflerin açıkça tanımlanabildiği satranç ve git gibi alanlar için mümkün olup olmadığını merak ediyorum. Ama AlphaZero'nun maksatlı oyun sergilediğini görünce çarpıcı buluyorum, ancak Stockfish neler olup bittiğini bilmiyor.

— Philip Roe
kaynak

0

Yapay sinir ağlarını anlama yöntemim, A0'ın asıl avantajı, tahta pozisyonlarının üstün değerlendirilmesi. Bu değerlendirme, hem kısa vadeli taktik bilgisini (bir bakıma incelenen pozisyon sayısının çarpanı olarak hizmet eder) hem de stratejik değerin üstün bir değerlendirmesini içerir.

— Steinar Vatne
kaynak

1

Chess SE'ye Hoşgeldiniz! Sinir ağlarının bu şekilde çalıştığını düşündüğünüz nedenler için bir referans verebilir misiniz?

— Pablo S. Ocal

0

Bütün tartışmanın kaçırdığını hissettiğim bir şey, A0'ın her şeyden çok iyi bir şekilde satranç, shogi ve go oyunlarını oynayabilmesi. Bu çok daha insan. Dahası, hareket halindeyken en iyi oyunculara derinden yeni fikirler ortaya çıkardı (anladığım kadarıyla). Diğer motorlar göreve özgü, A0 ise aksi görünüyor. Satranç960 oynadığını görmek isterim.

— fidge
kaynak

1

Bunun soruyu nasıl cevapladığını anlamıyorum.

— SmallChess

-2

Alpha hakkında 'insan' bir şey olduğunu sanmıyorum. Sadece çok daha güçlü donanım kullandı ve daha yüksek kalitede satranç oynadı. Buldukları iyi açılış hareketleri (örneğin, Bg2 ile fianchetto king tarafına) tamamen simüle edilmiş açılış kitabından kaynaklanmaktadır. Beni etkileyen ve “Satrançın Sırrı” nı formüle ettiğim kavramlar: Alpha'nın en iyi motorlar arasında ilk kez kullandığı http://davidsmerdon.com/?p=1970 , örneğin d4 -e5-f6 Bg6 fedakarlık oyununda bir bütün parçasına yer veren zincir ve her iki motor arasındaki Fransız Savunma oyunlarında görüldüğü gibi merkezi geri yapımcılar. Her iki kavram da büyük derinlikleri aramayı içerir ve muhtemelen burada Alpha, muazzam donanımı tarafından yardım edildi. Aksi halde, oyunuyla ilgili hiçbir insan göremiyorum. Oyunların çoğu kuşkusuz,

— Lyudmil Tsvetkov
kaynak

5

Bu iki ifadeniz yanlıştır: 1) "Sadece çok daha güçlü bir donanım kullandı" - Evet, Stockish'ten daha güçlü bir donanım kullandı, ancak bu fark yaratan şey değil. Güçlü donanım gerektiren çok farklı bir yazılımdır. 2) "Bulduğu iyi açılış hamleleri tamamen simüle edilmiş açılış kitabından kaynaklanıyor." - Herhangi bir açılış kitabı kullanmaz.

— IA Petr Harasimovic,

Farkı yaratan şey tam da bu: üstel olarak daha büyük Alpha donanımı. Her satranç testçisi, hızın iki katına çıkması, yazılıma bağlı olarak satranç gücünü yaklaşık 70 derece artırır. 32 çekirdekli ve 4 TPU, 1000-2000 çekirdekli arasındaki fark, 6 katına çıkmıştır. Bu 420 elos için yapar. Bu yüzden, aslında, bu donanımda 100 elos daha güçlü performans gösterirken, eşit şartlarda Alpha yaklaşık 300 elos daha zayıftır.

— Lyudmil Tsvetkov,

Elbette, ne iddia ettikleri önemli değil, bir açılış kitabı kullanıyor. Alpha, en iyi GM kazanan oyunlarda eğitildi. Alpha'nın açılış seçimini görürse, bu çok açık bir şekilde ortaya çıkıyor: tam olarak açıklıklar, modern teori, kazanma şansının en iyi olduğu yerlerdir. Bunun gibi Bg2 ile nişanlı değilsiniz.

— Lyudmil Tsvetkov

3

@Lyudmil, Google, Alfa Sıfır'da şaşırtıcı bir şey başardı. Bu hamleleri, yalnızca oyunun kurallarını bilerek kendisine karşı oynayarak öğretti! Alfa Sıfır ekibi aldatma ekibini suçlamak, onların başarılarını veya onların görevlerini hiç anlamadığınızı gösterir - AI'nın sınırlarını ileriye doğru itiyorlar ve bir öğleden sonraki çalışmalarında mevcut tüm satranç motorlarını ve insan yeteneklerini yenmek için küçük bir hareket olarak!

— saille

1

@LyudmilTsvetkov Tamamen yanılıyorsunuz. Alfa Sıfır (ve bu onun noktasıdır) eğitimli wtihout herhangi bir insan oyunlar. Bu olmadan tek başına oynama dört saat içinde kendi oyun her yönüyle icat durum kurallarını anlattı ve oluyor herhangi yeni dış veri.

— Maverick

Alfa Sıfır “daha ​​insan” nasıl?

Hayatta kalmak için inanılmaz derecede ilginç bir zaman.

Alfa Sıfır “daha insan” nasıl?