Eğer tüm veri setini alıp bir topa vuran oyuncuyu toplayan toplam top sayısına böldüm, bir topçunun bir topa vuran oyuncuya sahip olma olasılığının ortalama olacağını söyleyebilirim - umarım 0.03 civarında olur (umarım) Zaten yanlış gitmedim mi?)
Ne yazık ki, bu belki de tam olarak aradığınız şey değil.
Diyelim ki tek bir bowling oyuncumuz ve iki topa vuran oyuncu var: Don Bradman ve ben. (Kriket hakkında çok az şey biliyorum, bu yüzden burada bir şey yapıyorsam bana bildirin.) Oyunlar şöyle bir şey yapar:
- Don batmaya gider ve 99. kaseye çıkar.
- Yarasaya gidiyorum ve hemen dışarı çıkıyorum.
- Don batmaya gider ve 99. kaseye çıkar.
- Yarasaya gidiyorum ve hemen dışarı çıkıyorum.
Bu durumda, 200 kaseden dört çıkışı vardır, bu yüzden bir topçunun bir topa vuran oyuncuya ulaşmasının marjinal olasılığı 4/200 =% 2 olarak tahmin edilir. Ama gerçekten, Don'un dışarı çıkma olasılığı% 1'e benziyor, oysa benimki% 100. Bu nedenle, bir topa vuran oyuncu ve rastgele bir bowler seçerseniz, bu melonun bu topa vuran oyuncuyu bu sefer dışarı çıkarma olasılığı daha çok (Don'u seçtiğiniz% 50 şans) * (% 1 dışarı çıkma şansı) + (% 50 şans ben) * (% 100 dışarı çıkma şansım) =% 50.05. Ancak rastgele bir adım seçerseniz , çıkma şansı% 2'dir. Bu yüzden, hangi örnekleme modellerini düşündüğünüzü dikkatlice düşünmelisiniz.
Her neyse, teklifin deli değil. Daha sembolik olarakb Melon ol ve mtopa vuran oyuncu; İzin Vermekf( b , m ) olma olasılığı b alır mdışarı. Sonra diyorsun ki:
f(b,m)=Em′[f(b,m′)]Eb′[f(b′,m)]Eb′,m′[f(b′,m′)].
Bu, istenen özelliğe sahiptir:
Eb,m[f(b,m)]=Eb,m′[f(b,m′)]Eb′,m[f(b′,m)]Eb′,m′[f(b′,m′)]=Eb,m[f(b,m)];
sadece araç devralmanız durumunda benzer şekilde tutarlıdır
b veya
m.
Bu durumda,
C:=Eb,m[f(b,m)]g(b):=Em[f(b,m)]/C−−√h(m):=Eb[f(b,m)]/C−−√so that f(b,m)=g(b)h(m).
Varsayımınız gözlemleyebileceğiniz
g(b) ve
h(m)verilerden oldukça iyi. (A) Yeterli oyuna sahip olduğunuz sürece (ve yaptığınız gibi) ve (b) oyuncular birbirlerini makul derecede benzer frekanslarla oynarlarsa, bu iyidir.
(B) 'yi biraz detaylandırmak için: bir sürü profesyonel oyundan ve bir sürü oyunumun arkadaşlarımla oynadığımdan verilere sahip olduğunuzu hayal edin. Çakışma yoksa, belki arkadaşlarımla karşılaştırıldığında gerçekten iyi görünüyorum, belki de en kötü profesyonel oyuncudan çok daha iyi olduğumu düşünüyorsun. Bu kesinlikle yanlıştır, ancak bunu çürütecek herhangi bir veriniz yok. Profesyonel bir oyuncuya karşı bir kez oynadığım ve imha edildiğimde biraz çakışma varsa, veriler beni ve arkadaşlarımı profesyonellerden daha kötü olarak sıralamayı destekliyor, ancak yönteminiz bunu hesaba katmıyor. Teknik olarak, buradaki sorun, örneğin iyi bir örneğiniz olduğunu varsayarsınız.Eb′[f(b′,m)], ama sen b′ dağıtım yanlı.
Tabii ki verileriniz bu kadar kötü görünmeyecek, ancak lig yapısına veya herhangi bir şeye bağlı olarak, bu sorunun bazı unsurları olabilir.
Etrafında farklı bir yaklaşımla çalışmayı deneyebilirsiniz. İçin önerilen modelfaslında Netflix probleminde olduğu gibi işbirlikçi filtrelemede yaygın olan düşük dereceli matris çarpanlarına ayırma modellerinin bir örneğidir . Orada, işlevi seçersinizg(b) ve h(m) boyutta olmak rve temsil et f(b,m)=g(b)Th(m). Yorumlayabilirsinr>1modelinizi tek bir "kalite" puanından, birden çok boyutta puan almaya kadar karmaşık hale getirebiliriz: belki de bazı kaptanlar belirli tipte topa vuran oyunculara karşı daha iyisini yaparlar. (Bu, örneğin NBA oyunları için yapılmıştır .)
Matris çarpanlarına ayırma olarak adlandırılmalarının nedeni, F toplayıcılar kadar çok satır ve yarasalar kadar çok sütun ile bunu şöyle yazabilirsiniz:
⎡⎣⎢⎢⎢⎢⎢f(b1,m1)f(b2,m1)⋮f(bN,m1)f(b1,m2)f(b2,m2)⋮f(bN,m2)……⋱…f(b1,mM)f(b2,mM)⋮f(bN,mM)⎤⎦⎥⎥⎥⎥⎥F=⎡⎣⎢⎢g(b1)⋮g(bN)⎤⎦⎥⎥G⎡⎣⎢⎢h(m1)⋮h(mM)⎤⎦⎥⎥THT
çarpanlarına ayırdığınız
N×M matris
F Içine
N×r bir
G ve bir
M×r bir
H.
Tabii ki, gözlemlemiyorsun Fdirekt olarak. Her zamanki model, gürültülü girişleri gözlemlemenizdir.Frastgele; sizin durumunuzda, her bir giriş için rastgele sayıda deneme içeren bir binom dağılımından bir çizim gözlemlersiniz .F.
Aşağıdaki gibi bir olasılık modeli oluşturabilirsiniz:
Gik∼N(0,σ2G)Hjk∼N(0,σ2H)Fij=GTiHjRij∼Binomial(nij,Fij)
nerede
nij ve
Rij ve muhtemelen bazı hiper öyküler koyardınız
σG/
σHve örneğin
Stan .
Bu mükemmel bir model değil: birincisi, n puanlarla ilişkilidir (ilk bölümde bahsettiğim gibi) ve daha da önemlisi, Fij içinde olmak [0,1](bunu başarmak için muhtemelen bir lojistik sigmoid veya benzeri bir yöntem kullanırsınız). İçin daha karmaşık öncelikleri olan ilgili bir makaleG ve H(ancak bu binomiyal olasılığı kullanmaz): Salakhutdinov ve Mnih, Markov zinciri Monte Carlo , ICML 2008 kullanarak Bayes olasılıklı matris çarpanlarına ayırma . ( doi / author pdf )