Batsmen dışarı almak kriket bowlers modelleme


9

Çok sayıda kriket oyununu (birkaç bin) detaylandıran bir veri setim var. Kriket "bowlers" art arda "topa vuran oyuncu" art arda topu atmak. Melon topa vuran oyuncuyu dışarı çıkarmaya çalışıyor. Bu bakımdan, beyzbolda sürahi ve hamurlara oldukça benzer.

Tüm veri kümesini aldım ve bir topa vuran topun toplam sayısını, bowling edilen toplam top sayısına böldüysem, bir topa vuran oyuncunun bir topa vuran oyuncuya sahip olma olasılığının ortalama olduğunu söyleyebilirim - yaklaşık 0.03 ( umarım zaten yanlış gitmedim mi?)

İlgilendiğim şey, belirli bir topa vuran oyuncunun bir sonraki topun belirli bir bowling oyuncusu tarafından oynanma olasılığını hesaplamak için yapabileceğim şey.

Veri seti, herhangi bir melonun binlerce topla geniş bir topa vuran oyuncuya bowling yapacağı kadar büyüktür. Bu yüzden, bir bowling oyuncunun elde ettiği çıkış sayısını sadece bir sonraki topdan dışarı çıkması için belirli bir bowling oyuncusu için yeni bir olasılık hesaplamak üzere bowling yaptığı top sayısına bölebileceğime inanıyorum.

Benim sorunum, veri kümesinin verilen bir bowling oyuncunun herhangi bir topa vuran oyuncuda istatistiksel olarak anlamlı sayıda top eğdiğini garanti edecek kadar büyük olmamasıdır. Bu nedenle, belirli bir topa vuran oyuncuya bakan belirli bir bowling oyuncusu için bir olasılığın hesaplanmasıyla ilgileniyorsam, bunun aynı basit şekilde yapılamayacağını sanmıyorum.

Sorum şu yaklaşımın geçerli olup olmadığıdır:

  • Tüm veri kümesinde bir topun dışarı çıkma olasılığı 0.03'tür.

  • Ortalama bowler A'nın 0.06'nın üzerinden çıkma olasılığına sahip olduğunu hesaplarsam (yani ortalama bir melonun iki katı),

  • ve ortalama bir topa vuran oyuncu B'nin 0,01 (olasılık dışı bir topa vuran oyuncu olması muhtemel) üçte biri olma olasılığı vardı,

  • o zaman belirli bir topa vuran oyuncunun bir sonraki topun o belirli bowling oyuncusuna çıkma olasılığının 0.06 * (0.01 / 0.03) = 0.02 olduğunu söylemek geçerli midir?


Eğer melon defalarca topu atmayı seçerse , kendilerini oyunda tekrar toplayabilmekten hızla uzaklaşırlardı.
Glen_b

Yanıtlar:


2

Eğer tüm veri setini alıp bir topa vuran oyuncuyu toplayan toplam top sayısına böldüm, bir topçunun bir topa vuran oyuncuya sahip olma olasılığının ortalama olacağını söyleyebilirim - umarım 0.03 civarında olur (umarım) Zaten yanlış gitmedim mi?)

Ne yazık ki, bu belki de tam olarak aradığınız şey değil.

Diyelim ki tek bir bowling oyuncumuz ve iki topa vuran oyuncu var: Don Bradman ve ben. (Kriket hakkında çok az şey biliyorum, bu yüzden burada bir şey yapıyorsam bana bildirin.) Oyunlar şöyle bir şey yapar:

  • Don batmaya gider ve 99. kaseye çıkar.
  • Yarasaya gidiyorum ve hemen dışarı çıkıyorum.
  • Don batmaya gider ve 99. kaseye çıkar.
  • Yarasaya gidiyorum ve hemen dışarı çıkıyorum.

Bu durumda, 200 kaseden dört çıkışı vardır, bu yüzden bir topçunun bir topa vuran oyuncuya ulaşmasının marjinal olasılığı 4/200 =% 2 olarak tahmin edilir. Ama gerçekten, Don'un dışarı çıkma olasılığı% 1'e benziyor, oysa benimki% 100. Bu nedenle, bir topa vuran oyuncu ve rastgele bir bowler seçerseniz, bu melonun bu topa vuran oyuncuyu bu sefer dışarı çıkarma olasılığı daha çok (Don'u seçtiğiniz% 50 şans) * (% 1 dışarı çıkma şansı) + (% 50 şans ben) * (% 100 dışarı çıkma şansım) =% 50.05. Ancak rastgele bir adım seçerseniz , çıkma şansı% 2'dir. Bu yüzden, hangi örnekleme modellerini düşündüğünüzü dikkatlice düşünmelisiniz.


Her neyse, teklifin deli değil. Daha sembolik olarakb Melon ol ve mtopa vuran oyuncu; İzin Vermekf(b,m) olma olasılığı b alır mdışarı. Sonra diyorsun ki:

f(b,m)=Em[f(b,m)]Eb[f(b,m)]Eb,m[f(b,m)].

Bu, istenen özelliğe sahiptir:

Eb,m[f(b,m)]=Eb,m[f(b,m)]Eb,m[f(b,m)]Eb,m[f(b,m)]=Eb,m[f(b,m)];
sadece araç devralmanız durumunda benzer şekilde tutarlıdır b veya m.

Bu durumda,

C:=Eb,m[f(b,m)]g(b):=Em[f(b,m)]/Ch(m):=Eb[f(b,m)]/Cso that f(b,m)=g(b)h(m).
Varsayımınız gözlemleyebileceğiniz g(b) ve h(m)verilerden oldukça iyi. (A) Yeterli oyuna sahip olduğunuz sürece (ve yaptığınız gibi) ve (b) oyuncular birbirlerini makul derecede benzer frekanslarla oynarlarsa, bu iyidir.

(B) 'yi biraz detaylandırmak için: bir sürü profesyonel oyundan ve bir sürü oyunumun arkadaşlarımla oynadığımdan verilere sahip olduğunuzu hayal edin. Çakışma yoksa, belki arkadaşlarımla karşılaştırıldığında gerçekten iyi görünüyorum, belki de en kötü profesyonel oyuncudan çok daha iyi olduğumu düşünüyorsun. Bu kesinlikle yanlıştır, ancak bunu çürütecek herhangi bir veriniz yok. Profesyonel bir oyuncuya karşı bir kez oynadığım ve imha edildiğimde biraz çakışma varsa, veriler beni ve arkadaşlarımı profesyonellerden daha kötü olarak sıralamayı destekliyor, ancak yönteminiz bunu hesaba katmıyor. Teknik olarak, buradaki sorun, örneğin iyi bir örneğiniz olduğunu varsayarsınız.Eb[f(b,m)], ama sen b dağıtım yanlı.

Tabii ki verileriniz bu kadar kötü görünmeyecek, ancak lig yapısına veya herhangi bir şeye bağlı olarak, bu sorunun bazı unsurları olabilir.


Etrafında farklı bir yaklaşımla çalışmayı deneyebilirsiniz. İçin önerilen modelfaslında Netflix probleminde olduğu gibi işbirlikçi filtrelemede yaygın olan düşük dereceli matris çarpanlarına ayırma modellerinin bir örneğidir . Orada, işlevi seçersinizg(b) ve h(m) boyutta olmak rve temsil et f(b,m)=g(b)Th(m). Yorumlayabilirsinr>1modelinizi tek bir "kalite" puanından, birden çok boyutta puan almaya kadar karmaşık hale getirebiliriz: belki de bazı kaptanlar belirli tipte topa vuran oyunculara karşı daha iyisini yaparlar. (Bu, örneğin NBA oyunları için yapılmıştır .)

Matris çarpanlarına ayırma olarak adlandırılmalarının nedeni, F toplayıcılar kadar çok satır ve yarasalar kadar çok sütun ile bunu şöyle yazabilirsiniz:

[f(b1,m1)f(b1,m2)f(b1,mM)f(b2,m1)f(b2,m2)f(b2,mM)f(bN,m1)f(bN,m2)f(bN,mM)]F=[g(b1)g(bN)]G[h(m1)h(mM)]THT
çarpanlarına ayırdığınız N×M matris F Içine N×r bir G ve bir M×r bir H.

Tabii ki, gözlemlemiyorsun Fdirekt olarak. Her zamanki model, gürültülü girişleri gözlemlemenizdir.Frastgele; sizin durumunuzda, her bir giriş için rastgele sayıda deneme içeren bir binom dağılımından bir çizim gözlemlersiniz .F.

Aşağıdaki gibi bir olasılık modeli oluşturabilirsiniz:

GikN(0,σG2)HjkN(0,σH2)Fij=GiTHjRijBinomial(nij,Fij)
nerede nij ve Rij ve muhtemelen bazı hiper öyküler koyardınız σG/σHve örneğin Stan .

Bu mükemmel bir model değil: birincisi, n puanlarla ilişkilidir (ilk bölümde bahsettiğim gibi) ve daha da önemlisi, Fij içinde olmak [0,1](bunu başarmak için muhtemelen bir lojistik sigmoid veya benzeri bir yöntem kullanırsınız). İçin daha karmaşık öncelikleri olan ilgili bir makaleG ve H(ancak bu binomiyal olasılığı kullanmaz): Salakhutdinov ve Mnih, Markov zinciri Monte Carlo , ICML 2008 kullanarak Bayes olasılıklı matris çarpanlarına ayırma . ( doi / author pdf )


1
@Ravi Bu uzun, muhtemelen açık bir şekilde açıklanmadı ve bu tür sorunlarla ilgili geçmişinizi bilmiyorum. Ancak belirsiz olan kısımlar hakkında soru sormaktan çekinmeyin. Ayrıca, verileriniz bire bir olduğu için say Elo seçeneğini de kullanabilirsiniz .
Dougal

Bu çok kaliteli cevabı yazmak için zaman ayırdığınız için teşekkür ederiz. Kuşkusuz şu anda sadece temel istatistikleri biliyorum, bu yüzden bunların çoğu benim için yeni. Ancak bu sorunu tam olarak ne istediğimi anlamak için neyin okunacağını açıkça gösteriyor. Umarım birkaç gün (veya yıl sonra) çalıştıktan sonra cevabınızı daha iyi anlayabileceğim.
Ravi

Teşekkür ederim. Elo hakkında bir sorum vardı. Oldukça uzun olduğu için [burada] yeni bir soru açtım :( stats.stackexchange.com/questions/230518/… )
Ravi

0

A ve B, diğer oyuncularla ortalamalarına dayanarak sahada hiç karşılaşmamışsa, A'nın bowling olduğu düşünülürse B'nin dışarı çıkma olasılığını çıkartamazsınız .


3
Her ne kadar kriket konusunda doğru olabilirseniz de, satranç gibi diğer beceri oyunlarındaki derecelendirme sistemlerinin asla rekabet etmeyen insanlar arasındaki maç sonuçlarını tahmin etme yeteneği aksini iddia ediyor.
whuber

2
@whuber Kabul Edildi - Bence hemen hemen tüm diğer rekabetçi etkileşimler kadar kriket için de geçerli olacak. Kriket o kadar da farklı değil .
Glen_b
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.