Bu durumda Poisson regresyonunun lineer regresyona göre ne gibi avantajları vardır?


12

Bir lisede öğrenciler tarafından kazanılan ödüllerin sayısını içeren bir veri seti verildi, burada kazanılan ödül sayısının yordayıcıları, öğrencinin kayıtlı olduğu program türünü ve matematikteki final sınavlarındaki puanı içeriyordu.

Birisi bana neden bu durumda doğrusal bir regresyon modelinin uygun olmadığını ve Poisson regresyonunu kullanmanın daha iyi olacağını söyleyebilir miydi? Teşekkürler.

Yanıtlar:


14

Poisson vs Normal regresyon hakkında üç nokta, hepsi model spesifikasyonu ile ilgili:

Öngörücülerdeki değişikliklerin etkisi

Matematik testi puanı gibi sürekli bir yordayıcı ile Poisson regresyonu (olağan günlük bağlantısıyla), yordayıcıdaki birim değişikliğinin ödül sayısında yüzde değişikliğe yol açtığını, yani matematik testindeki 10 noktanın daha fazla örneğin yüzde 25 ile ilişkili olduğunu ima eder. daha fazla ödül. Bu, öğrencinin önceden sahip olması beklenen ödüllerin sayısına bağlıdır. Buna karşılık, Normal regresyon, her koşulda 10 puanı daha sabit bir miktarla ilişkilendirir, örneğin 3 ödül daha. Bunu yapan modeli kullanmadan önce bu varsayımdan memnun olmalısınız. (Bence bu çok makul, bir sonraki nokta modulo.)

Ödülü olmayan öğrencilerle çalışmak

Pek çok öğrenciye dağılmış pek çok ödül olmadığı sürece, ödül sayınız çoğunlukla düşük olacaktır. Aslında sıfır enflasyonu tahmin ederdim, yani çoğu öğrencinin ödülü yoktur, bu yüzden çok sayıda sıfır ve bazı iyi öğrenciler oldukça az ödül alır. Bu, Poisson modelinin varsayımlarını bozar ve en azından Normal model için kötüdür.

Yeterli miktarda veriniz varsa, 'sıfır şişirilmiş' veya 'engel' modeli doğal olacaktır. Bu birbirine bağlanmış iki modeldir: biri öğrencinin ödül alıp almadığını tahmin etmek için diğeri ise hiç aldığında kaç tane aldığını tahmin etmek için (genellikle bir çeşit Poisson modeli). Tüm eylemlerin ilk modelde olmasını beklerdim.

Ödül ayrıcalığı

Sonunda ödüller hakkında küçük bir nokta. Ödüller münhasırsa, yani bir öğrenci ödülü alırsa, başka hiçbir öğrenci ödülü alamazsa, sonuçlarınız birleştirilir; öğrenci a için bir sayı, her birinin olası sayısını aşağı iter. Bunun endişelenmeye değip değmeyeceği ödül yapısına ve öğrenci nüfusunun büyüklüğüne bağlıdır. İlk geçişte görmezden gelirdim.

Sonuç olarak, Poisson çok büyük sayımlar dışında Normal'e rahatça hükmeder, ancak Poisson'un çıkarım için çok eğilmeden önce varsayımlarını kontrol edin ve gerekirse biraz daha karmaşık bir model sınıfına geçmeye hazır olun.


9

Poisson regresyonu bu durumda daha uygun olacaktır çünkü cevabınız bir şey sayılır.

λ

λλ

Normal lineer regresyon, ortalama etrafında normal hatalar varsayar ve bu nedenle eşit ağırlıkta olur. Bu, eğer bir öğrencinin beklenen sayıda 1 ödülü varsa, 3 ödül kazanması için -2 ödül kazanma olasılığının yüksek olduğunu söyler: bu açıkça saçmalıktır ve hangi poisson'a hitap etmek için inşa edilmiştir.


8

ln(birwbirrds+0.5)

Ayrıca, beklenen ödül sayısı çok arttıkça, OLS @Corone tarafından belirtilen nedenlerle daha iyi performans göstermelidir. In Gölü Wobegon , EKK gitmek yoludur.

Beklenen sayı düşükse, çok sayıda sıfır varsa, Poisson'u negatif binom modeli üzerinde güçlü standart hatalarla kullanırdım. NB regresyonu, katsayıları üreten birinci dereceden koşullarda ortaya çıkan varyans hakkında güçlü varsayımlar yapar. Bu varsayımlar karşılanmazsa, katsayıların kendileri kontamine olabilir. Poisson için durum böyle değil.


4

λλ

set.seed(12345)
pois10 <- rpois(1000, 10)
plot(density(pois10))
library(moments)
skewness(pois10)

0'a oldukça yakın olan 0.31'in çarpıklığını gösterir.

Ayrıca @conjugateprior'ın puanlarını seviyorum. Deneyimlerime göre, Poisson regresyonunun iyi uyması nadirdir; Genellikle negatif bir binom veya sıfır şişirilmiş bir model kullanarak sarılırım.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.