EDIT: Bu yazı yaptığımdan beri, burada ek bir yazı ile takip ettim .
Aşağıdaki metnin özeti: Bir model üzerinde çalışıyorum ve doğrusal regresyon, Box Cox dönüşümleri ve GAM'ı denedim, ancak fazla ilerleme kaydetmedim
Kullanarak R
, şu anda büyük lig (MLB) düzeyinde küçük lig beyzbol oyuncularının başarısını tahmin etmek için bir model üzerinde çalışıyorum. Bağımlı değişken, saldırgan kariyer değiştirmenin (oWAR) üstünde kazanır, MLB düzeyinde başarı için bir vekildir ve oyuncunun kariyeri boyunca dahil olduğu her oyun için rahatsız edici katkıların toplamı olarak ölçülür (ayrıntılar - http) : //www.fangraphs.com/library/misc/war/). Bağımsız değişkenler, yaş (büyük yaşta daha fazla başarılı olan oyuncular daha iyi olasılıklar olma eğilimindedir) dahil olmak üzere büyük lig düzeyinde başarının önemli bir göstergesi olduğu düşünülen istatistikler için z skorlu küçük lig saldırgan değişkenleridir [SOPct ], yürüyüş hızı [BBrate] ve ayarlanmış üretim (saldırgan üretimin küresel ölçüsü). Ek olarak, küçük liglerin birden fazla seviyesi olduğundan, küçük lig oyun seviyesi için kukla değişkenler ekledim (Çift A, Yüksek A, Düşük A, Çaylak ve Üçlü A ile Kısa Sezon [ana liglerden önceki en yüksek seviye] referans değişkeni olarak]). Not: WAR'u 0 ile 1 arasında değişen bir değişken olacak şekilde yeniden ölçeklendirdim.
Değişken dağılım grafiği aşağıdaki gibidir:
Başvuru için, bağımlı değişken olan oWAR aşağıdaki şemaya sahiptir:
Doğrusal bir regresyonla başladım oWAR = B1zAge + B2zSOPct + B3zBBPct + B4zAdjProd + B5DoubleA + B6HighA + B7LowA + B8Rookie + B9ShortSeason
ve aşağıdaki teşhis planlarını elde ettim :
Kalıntıların tarafsızlığı ve rastgele varyasyon eksikliği ile ilgili açık problemler vardır. Ayrıca, artıklar normal değildir. Regresyonun sonuçları aşağıda gösterilmiştir:
Önceki bir konudaki tavsiyeyi takiben, hiç başarılı olmayan bir Box-Cox dönüşümü denedim. Sonra, günlük bağlantısı olan bir GAM denedim ve şu grafikleri aldım:
orijinal
Yeni Tanı Grafiği
Yivler verilere uymaya yardımcı olmuş gibi görünüyor, ancak teşhis grafikleri hala zayıf bir uyum gösteriyor. DÜZENLEME: Başlangıçta takılan değerlere karşı artıklara baktığımı sanıyordum ama yanılmışım. Orijinal olarak gösterilen çizim Orijinal (yukarıda) olarak işaretlenir ve daha sonra yüklediğim çizim Yeni Teşhis Çizim olarak işaretlenir (ayrıca yukarıda)
modelin arttı
fakat komuta tarafından üretilen sonuçlar gam.check(myregression, k.rep = 1000)
umut verici değil.
Herkes bu model için bir sonraki adım önerebilir mi? Şimdiye kadar kaydettiğim ilerlemeyi anlamak için yararlı olabileceğini düşündüğünüz diğer bilgileri vermekten mutluluk duyuyorum. Verebileceğiniz herhangi bir yardım için teşekkürler.