İşte "Million Base" PGN veritabanına dayanan hızlı ve kirli bir analiz. Bunu biraz aceleyle yaptım, bu yüzden programlamamda veya mantığımda hatalar olabilir. Lütfen çok ciddi bir şey için kullanmayın. Güncelleme - Not: Aslında, veri kümesinde bir hata yaptığımı fark ettim ve ilk 1 milyon kayıtla sınırlandırdım. Her şeyi tekrar çalıştırmak için boş zamanım olduğunda bir güncelleme göndereceğim. Bu arada, bu rakamlar yine de ilginç olmalı.
Verilerin elde edilmesi:
Bu URL'den Million Base 1.74 dosyasını edindim, çünkü ilk-5000.nl sitesi gerçekten indirmeyi denediğinizde 404 görünüyor. Dosya PGN ihracat biçiminde (yani, ayrıştırılması kolay) 1 milyondan fazla oyun içeriyor.
Maalesef, oyunların% 60'ından fazlası herhangi bir derecelendirme bilgisine sahip değildi ("WhiteELO" ve "BlackELO" etiketleri arıyordum) ve daha az oyuncu her iki oyuncu için de derecelendirmeye sahipti. Sonunda, alabildiğim kadar büyük bir örneklem büyüklüğü almaya karar verdim ve diğer oyuncunun puanına bakılmaksızın, oyu biliniyorsa, oyuncunun hamlelerini saydım.
Süreci:
Oyunlar birer birer ayrıştırıldı ve bir oyuncunun derece biliniyordu eğer, tüm bunların bu oyun için hamle oyuncunun derece grubu için agrega ilave edilecektir. Derecelendirmeleri 100'lü gruplara ayırmayı seçtim, bu nedenle örneğin 1600-1699 arasında tek bir grup vardı.
PGN'deki asıl movetext SAN olduğundan, hamleleri saymak için aşağıdaki kısayolu kullandım: Şövalye (N), Piskopos (B), Kale (R), Kraliçe (Q) ve Kral (K) hamle, parçalarının harfleriyle başlıyor . Özel durum olarak Castling (OO ve OOO) ayrı olarak sayıldı. Kalan tüm hamleler daha fazla inceleme yapılmadan piyon hamle olarak sayıldı.
Veri temizleme işlemi gerçekleştirilmedi. Aykırı olanları belirleme ve kaldırma girişimi yoktu (örneğin, son derece kısa ve uzun oyunlar vb.). Tutuldum, ancak aşağıdaki analize dahil etmedim, puanları 1600'ün altında olan sonuçlar - bu oyunların örneklem büyüklüğü 100'ün çok altındaydı ve sonuçlarda büyük farklılıklar ortaya çıktı. Ham veri bu yazının sonunda verilmiştir.
Bilgilerin bazı eksiklikleri: şu anda sadece çok temel toplamları topladım ve ortalamaları verdim. Genel olarak verilerin normal dağılmadığından emin değilim, ancak ham sayıları vermeden ve istatistiksel bir program aracılığıyla çalıştırmadan daha fazla şey söyleyemeyeceğimden eminim. Eğer ilgi varsa, yapabilirim. Şimdilik, bu, güven aralıklarının olmadığı veya bu ortalamaların temsil ettiği sayıların dağılımı hakkında diğer bilgiler anlamına gelir. Ayrıca, veri setinin kaç yıl boyunca yayıldığını da kontrol etmedim - yıllarca sürerse, alanın genel gücünü düzeltmeye çalışmak yararlı olabilir.
Bazı Trendler:
Oyuncu puanları hakkında bir kelime - en sık karşılaşılan puan grupları, sırasıyla: 2400 ila 2500, 2500 ila 2600 ve 2300 ila 2400 idi. Bu puanlama grupları, oyunların% 72'sini sağlamıştır.
Gerçek sonuçlara bakıldığında, ortalama oyun süresi bir sürpriz oldu:
2000 alt puanlama gruplarının hepsinde, yüksek gruplardan anlamlı olarak daha kısa oyunlar vardı. Bu, daha güçlü rakipler oynama olasılıkları (yukarıdaki ortalama derecelendirmeye bakınız) ve daha az hamlede mağlup olma olasılıkları ile açıklanabilir. Bu, daha küçük bir örneklem büyüklüğüne katkıda bulunabilse de, en üst puan grubunun oynadığı biraz daha kısa oyunlara karşı geliyor gibi görünüyor.
Ortalama oyun uzunluğundaki nispeten büyük farklar, bir parçanın toplam hareket sayısından ziyade, belirli bir parçanın hareket sıklığının sağlanmasının, belki de daha adil bir karşılaştırma olduğu anlamına geliyordu. Frekansları hesaplamak aşağıdaki grafiktedir:
Aşağıdaki eğilimler mevcut gibi görünüyor:
- Şövalye hareketlerinin sıklığı, derecelendirmeyle hafifçe aşağı doğru hareket ediyor gibi görünüyor.
- Piskopos yaklaşık 2000 yılına kadar aşağıya doğru hareket eder, ardından yavaşça yukarı doğru hareket eder.
- Kale hamleleri kabaca aynı noktada hızla yukarı doğru hareket eder ve Bishop'ın yüksek seviye oyunda hareket etmesinden daha sık kalır.
- Piyon hareketleri, artan puanlama ile hafifçe aşağı yönlü hareket eder. Büyük bir istisna, 2800 - 2900 arasındaki en üst kategoridir. Bu bizi bir sonraki noktaya getirir:
- En üst düzey kategori, çok sayıda ölçümde aykırı değerler veya karşı eğilimler sağlar. Bu çeşitli yollarla açıklanabilir - 1) örnek büyüklüğü 363'te oldukça düşük, küçük değil, ancak bir sonraki en küçük örnek büyüklüğünün% 10'u. 2) Derecelendirme gruplarının başında olduklarından, asla kendisinden daha "güçlü" rakipler oynamazlar. 3) Ya da basitçe bu seviyede, oyun stilleri altındaki seviyelerin ötesine geçti. Tahminim 1) ve 2) 'nin bir kombinasyonu olacaktır.
- Kraliçe hamle ve oyuncu hamle hamleleri arasındaki farklar, her iki durumda da küçük bir eğilim dışında, gerçek bir eğilim olmadan çok küçük.
- Kral hareketlerinin sıklığı en büyük farklılıklardan bazılarına sahiptir. Net bir eğilim görünmüyor ve yön 3 veya 4 kez değişmiş gibi görünüyor.
Daha fazla analiz
Gelecek analizi için bazı fikirler:
- Temel istatistiksel düzeltmeler: Çok kısa ve uzun oyunların muhtemelen dışlanması gerektiğini düşünüyorum. Ayrıca, gerçek sayımların dağılımı çok açık olabilir.
- Analizi daha ileriye bölmek de ilginç sonuçlar verebilir. Örneğin, siyah ve beyaz için frekansların nasıl eşleştiğini bilmek isterdim (Aynı mı, yoksa farklı mı? Neden?).
- Reytinge göre sınıflandırma da ilginç olabilir, daha güçlü bir rakip oynayan oyuncular (örneğin, üstlerindeki 200 puan) farklı hareket frekanslarında mı oynuyorlar? Ne yazık ki bu, her iki oyuncunun da ELO'yu bilmesini gerektirir ki bu, bu veri setinde nadirdir.
- Uzun kale ve kısa kaleye eğilim eğilimi de değerlendirmeye göre değişebilir.
- Parça tanıtım istatistikleri, bazı hafif yapısal analizler (örneğin, iki kat piyon insidansı, en passant, pim, çatal, reytinge göre gösterilen) içgörülü olabilir.
- Reytingle gösterilen, asıl tahtaya yerleştirilen parçanın "ısı haritaları" da oldukça etkileyici olabilir.
CSV biçiminde toplu veriler
Verilerle oynamak isteyenler için çekinmeyin.
Puanlama Aralığı, Örnek Boyutu, Ortalama Oyun Uzunluğu, Ortalama Piyon Hareketleri, Ortalama Şövalye Hareketleri, Ortalama Piskopos Hareketleri, Ortalama Kale Hareketleri, Ortalama Kraliçe Hareketler, Ortalama Kral Hareketleri, Ortalama Döküm
1100 to 1200,4,28.500,7.000,4.000,4.000,6.500,3.750,2.750,0.500
1300 to 1400,16,34.125,9.250,6.813,5.000,4.438,4.563,3.188,0.875
1400 to 1500,35,33.800,9.400,6.114,5.514,4.514,4.057,3.400,0.800
1500 to 1600,61,33.607,8.705,7.459,4.984,4.443,4.033,3.148,0.836
1600 to 1700,163,33.153,9.227,6.485,5.110,4.699,3.969,2.816,0.847
1700 to 1800,301,31.811,8.894,6.223,5.402,4.468,3.734,2.296,0.794
1800 to 1900,307,34.251,9.537,6.642,5.577,4.889,4.039,2.759,0.808
1900 to 2000,450,35.551,9.731,6.778,5.451,5.444,4.442,2.871,0.833
2000 to 2100,3958,38.731,10.302,7.095,6.072,6.242,4.668,3.481,0.871
2100 to 2200,11217,38.905,10.501,7.116,6.086,6.245,4.629,3.445,0.884
2200 to 2300,50848,39.446,10.595,7.167,6.174,6.420,4.717,3.484,0.889
2300 to 2400,79322,39.248,10.551,7.141,6.141,6.469,4.653,3.402,0.891
2400 to 2500,111867,38.394,10.398,7.013,6.086,6.294,4.542,3.168,0.893
2500 to 2600,92225,38.308,10.396,6.972,6.082,6.344,4.515,3.104,0.896
2600 to 2700,33193,39.340,10.565,7.061,6.295,6.579,4.630,3.318,0.891
2700 to 2800,4805,40.938,10.945,7.221,6.725,6.930,4.726,3.494,0.895
2800 to 2900,363,38.865,11.311,6.879,6.284,6.160,4.391,2.983,0.857