Ev Vuruşlarında Vuruşun Regresyonunu Ölçmek

11

Beysbolu takip eden herkes muhtemelen Toronto'nun Jose Bautista'nın MVP tipi performansını hiç duymamıştı. Önceki dört yıl içinde, sezon başına yaklaşık 15 ev atışını vurdu. Geçtiğimiz yıl, beyzbol tarihinde sadece 12 oyuncu tarafından geride bırakılan 54 sayısını vurdu.

2010 yılında kendisine 2,4 milyon ödeme yapıldı ve takıma 2011 için 10,5 milyon istiyor. 7,6 milyon teklif ediyorlar. Bunu 2011'de tekrarlayabilirse, her iki miktara da kolayca değecektir. Fakat tekrarlama ihtimali nedir? Ortadan gerilemesini ne kadar zorlayabiliriz? Performansının ne kadarının şanstan kaynaklandığını bekleyebiliriz? Ortalamaya göre düzeltilmiş 2010 toplamlarının regresyonunun ne olmasını bekleyebiliriz? Nasıl anlarım?

Lahman Beyzbol Veritabanı ile oynuyorum ve önceki beş sezonda sezon başına en az 50 vuruş yapan tüm oyuncular için ev sahibi toplamlarını döndüren bir sorgu çıkardım.

Tablo şöyle görünüyor (10. sıradaki Jose Bautista'ya dikkat edin)

     first     last hr_2006 hr_2007 hr_2008 hr_2009 hr_2010
1    Bobby    Abreu      15      16      20      15      20
2   Garret Anderson      17      16      15      13       2
3  Bronson   Arroyo       2       1       1       0       1
4  Garrett   Atkins      29      25      21       9       1
5     Brad   Ausmus       2       3       3       1       0
6     Jeff    Baker       5       4      12       4       4
7      Rod  Barajas      11       4      11      19      17
8     Josh     Bard       9       5       1       6       3
9    Jason Bartlett       2       5       1      14       4
10    Jose Bautista      16      15      15      13      54

ve tam sonucu (232 satır) burada bulabilirsiniz .

Nereden başlayacağımı gerçekten bilmiyorum. Birisi beni doğru yönde gösterebilir mi? Bazı ilgili teori ve R komutları özellikle yardımcı olacaktır.

Lütfen teşekkürler

mehmetçik

Not: Örnek biraz anlaşılmıştır. Evdeki koşular kesinlikle bir oyuncunun değerinin en iyi göstergesi değildir ve evdeki toplamlar, bir meyvenin evdeki koşuları vurma şansına sahip olduğu sezon başına değişen şans sayısını dikkate almaz (plaka görünümleri). Bazı oyuncuların daha uygun stadyumlarda oynadığını ve ligdeki ortalama evdeki koşuların yıldan yıla değiştiğini yansıtmıyor. Ortalamaya regresyon muhasebesinin ardındaki teoriyi kavrayabilirsem, bunu HR'lerden daha uygun önlemlerde kullanabilirim.

r regression modeling

— TMOD
kaynak

2

Beyzbol, birçok ABD istatistikçisinin en sevdiği örnek kaynağıdır, bu nedenle Google (/ Akademik) araması, Morrison ve Schmittlein (1981) jstor.org/stable/2630890 gibi çeşitli ilgili makaleleri getirecektir . Sorunuzu cevaplamak için hem beyzbol hem de R'ye daha aşina olan birine bırakacağım.

— onestop

1

Ayrıca JC Bradbury'nin ve onun blogu Sabernomics, sabernomics.com/sabernomics'in çalışmalarına göz atmanızı öneririm . Oyuncu değerinin ölçülmesine ilişkin kitabı, gelecekteki üretkenliği hangi özelliklerin öngördüğüne dair muhtemelen bir fikir verecektir.

— Andy W

2

Belirtildiği gibi problem biraz daha aykırı bir soruna benziyor , ama normalde aykırı değerlerin olduğunu düşünmüyoruz. Şaşırtıcı sonucu (yani aykırı değer) dahil etmek için, ağır bir kuyruğa sahip bir "örnekleme dağılımına" ihtiyacınız olacaktır (Jose, geçmiş veriler üzerindeki ortalamasından 3 standart sapmadan çok fazla sonuç), bu da verilerinize daha iyi uymanıza yardımcı olabilir ve öngörmede hesaba katmak.

— olasılık

Burada görünen tüm daha karmaşık yorumlara ek olarak küçük bir kısayol düşünürseniz

— rolando2

3

Kesinlikle tahmin etmeye yardımcı olabilecek bir Bayesian küçülme veya önceden düzeltme olduğunu düşünüyorum, ancak başka bir çakışma da düşünebilirsiniz ...

Sadece son birkaç yılda değil, majörlerde bir çiftin ardından (belki de 2 kat dramatik artışlar) ara mevsim geçiren oyunculara bakın ve ertesi yıl nasıl yaptıklarını görün. Performansı sürdürme olasılığı doğru tahmin edicidir.

Bu soruna bakmanın çeşitli yolları var ama mpiktas'ın dediği gibi, daha fazla veriye ihtiyacınız olacak. Sadece son verilerle uğraşmak istiyorsanız, genel lig istatistiklerine, karşı olduğu sürahilere bakmak zorunda kalacaksınız, bu karmaşık bir sorundur.

Ve sonra sadece Bautista'nın kendi verilerini düşünüyor. Evet, bu onun en iyi yılıydı, ancak 2007'den beri 350'den fazla AB'ye (569) sahip olduğu ilk kez oldu. Performanstaki yüzde artışını dönüştürmeyi düşünebilirsiniz.

— John
kaynak

3

Sen olabilir bu verilere bir model yalnız uyacak ve karışık (düzeyli) modelleri kullanılarak ortalama gerileme hesaba tahminler alabilirsiniz. Bu tür modellerin tahminleri, ortalamanın gerilemesini açıklar. Beyzbol hakkında hiçbir şey bilmeden bile, son derece inandırıcı bulduğum sonuçları bulamıyorum, çünkü söylediğiniz gibi, modelin gerçekten plaka görünümleri gibi diğer faktörleri hesaba katması gerekiyor.

Bence Poisson karma efektler modeli, evdeki koşu sayısı önemli olduğundan doğrusal karma modelden daha uygun olacaktır. Sağladığınız verilere bakıldığında , bir histogramın hrgüçlü bir şekilde çarpık olduğunu gösterir, bu nedenle doğrusal bir karışık model iyi çalışmaz ve ilk önce log dönüşümü olan veya olmayan, oldukça fazla sayıda sıfır içerir.

İşte lme4 paketindeki lmerişlevi kullanan bazı kodlar . Her oyuncuyu tanımlamak için bir ID değişkeni oluşturduktan ve verisini cevabında belirtilen mpiktas olarak 'uzun' formatına yeniden şekillendirdikten sonra, (R'deki veri yönetiminde iyi olmadığım için Stata'da yaptım, ancak bunu bir elektronik tablo paketi):

Year.c <- Year - 2008   # centering y eases computation and interpretation
(M1 <- lmer(HR ~ Year.c + (Year.c|ID), data=baseball.long, family=poisson(log), nAGQ=5))

Bu, oyunculara göre değişmesine izin verilen isabet oranının yıla katlanarak bağımlılığını veren bir log-linke sahip bir modele uyar. Diğer bağlantı işlevleri mümkündür, ancak kimlik bağlantısı negatif takılmış değerler nedeniyle bir hata verdi. Bir sqrt bağlantısı olsa Tamam çalıştı ve log bağlantısı olan modelden daha düşük BIC ve AIC vardır, bu yüzden daha uygun olabilir. 2011'deki isabet oranı tahminleri, özellikle son zamanlarda isabet oranı çok değişmiş olan Bautista gibi oyuncular için seçilen bağlantı işlevine duyarlıdır.

Korkarım ki aslında bu tür tahminleri almayı başaramadım lme4. Stat'a daha aşinayım , sonuç için eksik değerlere sahip gözlemler için tahminler almayı çok kolay hale getiriyorum, ancak xtmelogit , günlük için herhangi bir bağlantı işlevi seçeneği sunmuyor gibi görünüyor, bu da Bautista'nın 50'sini tahmin ediyor Dediğim gibi, bunu son derece inandırıcı bulmuyorum. Birisi yukarıdaki lmermodellerden 2011 için nasıl tahmin üretileceğini gösterebileceğine minnettar olurum .

Bir otoregresif modeli oyuncu düzey hatalar için böyle AR olarak (1) çok ilginç olabilir, ancak bir Poisson karma model ile böyle bir yapıyı birleştirmek nasıl bilmiyorum.

— bir durak
kaynak

paket yeniden şekillendirmeden eriyik işlevini kullanarak, uzun biçime dönüştürmek R, eriyikte bir satırdır (veri, id = 1: 2).

— mpiktas

Bunun ilginç bir uzantısı / alternatifi, örneklenmiş bir oran parametresiyle (yılda 1 oran) bir Possion örnekleme dağılımına , ancak oran parametresi için Cauchy örnekleme dağılımına (normal veya normal karışım yerine ) hiyerarşik bir modele uymaktır . Cauchy dağılımı, aşırı olayın gerçekleşmesine izin verecektir (büyük bir hız parametresini örnekleyerek). Bir ara durum (normal ve Cauchy arasında) t-dağılımıdır. (Ters CDF yöntemini kullanabildiğinden Cauchy'den örnekleme daha kolaydır).

— olasılık

2

Ev koşuları hakkında verilere sahip olduğunuz zaman aralığında oyuncular ve özellikleri hakkında ek verilere ihtiyacınız vardır. İlk adımda, oyuncuların yaşı veya deneyimi gibi zamanla değişen bazı özellikler ekleyin. Ardından HLM veya panel veri modellerini kullanabilirsiniz. Verileri formda hazırlamanız gerekir:

    First Last  Year HR Experience Age
1.  Bobby Abreu 2005 15     6      26

O zaman en basit model olurdu ( lme işlevi nlme paketindendir )

lme(HR~Experience,random=~Experience|Year,data=your_data)

Bu model, her oyuncunun ev sahibi sayısının sadece bazı değişkenliklere izin veren deneyime dayandığı varsayımına büyük ölçüde güvenecektir. Muhtemelen çok doğru olmayacak, ama en azından Jose Bautista'nın sayılarının ortalama oyuncuya kıyasla ne kadar düşük olduğunu hissedeceksiniz. Bu model, diğer oyuncuların özellikleri eklenerek daha da geliştirilebilir.

— mpiktas
kaynak

Ben @TMOD böyle demezdim ihtiyacı tahminleri muhtemelen @TMOD eğer daha doğru olmasını sadece o, daha fazla veri vardı daha fazla veri. Soruda bir tahmin oluşturmak için yeterli bilgi var.

— probabilityislogic

@ olasılıkla, evet tahmin oluşturmak için yeterli bilgi var, ama sonra model sadece kesişecek.

— mpiktas

illa ki, bu verilere bir AR (1) veya AR (2) modeli sığdırabilir

— olasılık

@ olasılıkla ah, evet, haklısın.

— mpiktas

2

Kitap Blogu'na göz atmak isteyebilirsiniz .

Tom Tango ve "Kitap: Yüzdeleri Beyzbolda Oynamak" diğer yazarları muhtemelen en iyi sabermetrics kaynaklarıdır. Özellikle, gerilemeyi ortalamayı seviyorlar. En temel kabul edilebilir sistem (Marcel) olarak tasarlanmış bir tahmin sistemi buldular ve neredeyse tamamen ortalamanın gerilemesine dayanıyorlar.

Kafamın en üstünde, bir yöntemin gerçek yeteneği tahmin etmek için böyle bir tahmin kullanmak ve daha sonra bu ortalama yetenek etrafında uygun bir dağılım bulmak olduğunu düşünüyorum. Bunu yaptıktan sonra, her plaka görünümü bir Bernoulli denemesi gibi olacak, böylece binom dağılımı sizi geri kalan yoldan alabilir.

— Michael McGowan
kaynak

1

FYI, 2011'den 2014'e kadar 43, 27, 28 ve 35'i vurdu.

Bu, 162 oyun ortalaması olan 32'ye oldukça yakın (ki bu değerleri içeriyor) ve 2010'da 54'ün altında yaklaşık 1 SD.

Eylemdeki ortalamaya gerileme gibi görünüyor: Grup ortalamalarından şans eseri sapan gürültülü deneklerden (bu durumda 1) yararlanarak oluşturulmuş aşırı bir grup.

http://www.baseball-reference.com/players/b/bautijo02.shtml

— tim
kaynak