Şu anda makine öğrenimi hakkında okuyorum ve Connect Four oynamaya nasıl uygulanacağını merak ettim .
Şu anki girişimim sigmoid fonksiyon modelini ve hepsi-bir-hepsi yöntemini kullanan basit bir çoklu sınıf sınıflandırıcısı.
Bence, girdi özellikleri 7x6 = 42 ızgara alanının durumu (oyuncu 1'in diski, oyuncu 2'nin diski, boş) olmalıdır.
Çıktı, diski yerleştirilecek satır sayısı olacaktır. Bu 1 ile 7 arasında ayrı bir sayı olduğundan, sanırım bu çok sınıflı bir sınıflandırma sorunu olarak ele alınabilir.
Ancak, denetimli öğrenmede kullanılabilecek eğitim örneklerini nasıl oluştururum?
Asıl amaç oyunu kazanmaktır, ancak son dönüşü değil son dönüşü yaparken sonuç belli değildir. Binlerce kez rastgele ne yapacağına rastgele karar veren iki oyuncuya izin verirsem, her oyun turunun galibi tarafından yapılan tüm dönüşleri eğitim örnekleri olarak almak yeterli olacak mı? Yoksa bunu tamamen farklı bir şekilde yapmak zorunda mıyım?
Edit: Yorumlarda önerildiği gibi pekiştirme öğrenme hakkında biraz okuyun. Bildiğim kadarıyla, Q-Learning hile yapmalı, yani mevcut durumun bir Q fonksiyonuna ve bu durumdan başlayarak maksimum kümülatif ödül olmak için yapılacak harekete yaklaşık olarak yaklaşmalıyım. Daha sonra her adım, maksimum Q değeriyle sonuçlanan eylemi seçmek olacaktır. Ancak, bu oyunun bunu yapmak için çok fazla durumu vardır, örneğin bir arama tablosu olarak. Peki, bu Q-Fonksiyonunu modellemenin etkili bir yolu nedir?