Özel durumunuzda özel bir şey olmadığını varsayarsak, varsayılanı (Ortalama Kare Hatası) kullanmak veya günlüklerin hatasının ortalamasını veya hatta kareli hatayı kullanmak için iyi bir argüman olduğunu düşünüyorum.
Maliyet fonksiyonunun amacı, yanlış tahminlerle “üzgün” olduğunuzu, özellikle “yanlışlığın” sizi en çok rahatsız ettiğini ifade etmektir. Bu özellikle ikili yanıtlar için önemlidir, ancak her durumda önemli olabilir.
Ortalama Kare Hatası (yanıtlardan)
C=1n∑i(Yi−Y^i)2
MSE'yi kullanarak yukarıdan ve aşağıdan gelen hatalara eşit derecede duyarsınız ve büyük ve küçük tahminler için eşit derecede duyarsınız. Bu yapılması oldukça standart bir şey ve bu yüzden çoğu durumda kaşlarını çatacağını sanmıyorum.
Ortalama Kare Hatası (günlük yanıtlarının)
C=1n∑i(lnYi−lnY^i)2
Sayım verileriyle çalıştığınız için, simetrik veya boyut kayıtsız olmadığınız söylenebilir. 10 tahmini için 10 sayım dışında olmak 1000 tahmininden çok farklıdır. Bu, biraz "standart" bir maliyet işlevidir, çünkü bağlantı işlevine kadar maliyetleri eşleştirdiniz. Bu, maliyetlerin modelde varsayılan varyans dağılımıyla eşleşmesini sağlar.
Ki-Kare Hatası
C=1n∑i(Yi−Y^i)2Y^i
Üçüncü yol, ki-kare hatasını kullanmak olacaktır. GLM'nizi diğer sayı tabanlı modellerle karşılaştırıyorsanız, özellikle de GLM'nizde faktörler varsa, bu özellikle çekici olabilir. Hata günlüğü yanıtlarına benzer şekilde, bu boyutla ölçeklenir, ancak tahmin edilen sayının etrafında simetriktir. Artık uyumun iyiliğini yüzde hatasına göre değerlendiriyorsunuz.
Ayrıklık Üzerine
Soru, ikili yanıt değişkenine sahip oldukları dokümantasyon örneğinden bahsediyor, bu yüzden farklı bir maliyet fonksiyonu kullanın. İkili bir yanıt için sorun, yanıt her zaman tam olarak 0 veya 1 olmasına rağmen, GLM'nin 0 ile 1 arasında gerçek bir sayı tahmin edeceğidir. Bu sayı doğru yanıta ne kadar yakınsa, o kadar iyidir. ancak çoğu zaman insanlar bunu istemez. Bunun nedeni, genellikle 0 veya 1 gibi davranması gerektiğidir ve bu nedenle 0 için bir tahmin olarak 0,5'ten daha az bir şey alacaktır. Bu durumda, basitçe "yanlış" tahminlerin sayısını saymak mantıklıdır. Buradaki argüman, Doğru / Yanlış bir soru için sadece doğru veya yanlış olabileceğinizdir - yanlışlığın derecelendirilmesi yoktur.
Sizin durumunuzda sayım verileriniz var. Burada, yanıtla aynı destek üzerinde olmayan tahminleri kabul etmek çok daha yaygındır. Örneğin aile başına 2,4 çocuğun veya yılda 9,7 kişinin ölümünün öngörülmesi. Genellikle bu konuda hiçbir şey yapmaya çalışmazsınız, çünkü bu "olabildiğince yakın" veya "yanlış" olmakla ilgili değildir. Eğer gerçekten çok düşük bir sayım oranına sahip olduğunuz için gerçekten de bir tamsayı olan bir tahmininiz olması gerekiyorsa, o zaman önce tahmini yuvarlayıp "tam sayı" ya da hatayı sayamazsınız. Bu durumda, yukarıdaki üç ifade hala geçerlidir, ancak önce yuvarlamanız yeterlidir .Y^
cv.glmnet
paketindekiglmnet
kullanantype.measure="deviance"
Poisson ailesi için.