Poisson regresyon sayım verileri için neden kullanılıyor?


33

Oylama gibi bazı veri setleri için daha iyi performans gösterdiğini biliyorum. Poisson regresyonu neden normal lineer regresyon veya lojistik regresyon üzerinde kullanılır? Bunun için matematiksel motivasyon nedir?


Başka bir bakış açısı için bu gönderiye
kjetil b halvorsen

Yanıtlar:


51

Poisson ile dağıtılan veriler, tam olarak değerlidir ve bu sayma sayısı için anlamlıdır. Sıradan En Küçük Kareler ("doğrusal regresyon" dediğiniz OLS), gerçek değerlerin normalde beklenen değer etrafında dağıldığını ve ne olursa olsun, pozitif veya negatif, tam sayı veya kesirli herhangi bir gerçek değeri alabileceğini varsayar . Son olarak, lojistik regresyon sadece "0'a karşı değerli" (DOĞRU-YANLIŞ olarak değer verilen) veriler için işe yarar, "hastalığa karşı" yerine "hastalığa sahip değil" gibi. Böylece, Poisson dağılımı sayım verileri için en anlamlı olanıdır.

Bununla birlikte, normal bir dağılım genellikle, ortalama 30 veya daha fazla olan veriler için bir Poisson olana oldukça iyi bir yaklaşımdır. Poisson dağılımı ve regresyonu ortalamanın ve varyansın eşit olduğunu varsaydığı için, sayımı etkileyen tahmincilere sahip olduğunuz bir regresyon çerçevesinde, normal dağılıma sahip bir OLS'nin takılması daha kolay olabilir ve aslında daha genel olabilir. eşit olmayan araç ve varyanslarla başa çıkabilir - farklı araç ve varyanslara sahip bir sayım veri modeli için, örneğin bir negatif binom dağılımı kullanılabilir .


17
Sadece OlS kullanarak uydurmanın normallik gerektirmediğine dikkat edin
Dason

1
@Dason: Düzeltilmiş duruyorum.
S. Kolassa - Monica'yı yeniden kurun

3
Eğer Huber / White / Sandwich varyans tahmincisi kullanıyorsanız, ortalama varyans varsayımını rahatlatabilirsiniz
Dimitriy V. Masterov 4:13

@Dason Kesinlikle gerekli olmamakla birlikte, taktığınız şey için doğru model formunu kullanmak hemen hemen her zaman daha iyi bir tahmin sunar ve artıkların arazilerinde görebilirsiniz.
Joe

24

Temel olarak, doğrusal ve lojistik regresyonun, sayım sonuçlarının neye benzediğiyle ilgili yanlış türden varsayımlar yapmasıdır. Modelinizi, ne kadar saçma sapan olursa olsun, siparişlerinizi aralıksız takip edecek çok aptal bir robot olarak hayal edin; ne söylediğini değerlendirme yeteneğinden tamamen yoksun. Robotunuza oylar gibi bir şeyin negatif sonsuzluktan sonsuza dek sürekli dağıldığını söylerseniz, oyların nasıl bir şey olduğuna inandığına inanıyorsunuz ve size saçma sapan tahminler verebilir (Ross Perot önümüzdeki seçimlerde -10.469 oy alacaktır).

Tersine, Poisson dağılımı ayrık ve pozitif (ya da sıfır ... sıfır pozitif olarak sayılır, evet?). En azından, bu robotunuzu size gerçek hayatta olabilecek cevapları vermeye zorlar. Onlar ya olabilir veya olmayabilir iyi cevaplar , ancak en azından olası "oy kullanılan" sayısından çekileceklerdir.

Tabii ki, Poisson'un kendine has sorunları var: oy sayım değişkeninin ortalamasının da varyansı ile aynı olacağını varsayıyor. Bunun doğru olduğu yerde tartışmasız bir örnek görüp görmediğimi bilmiyorum. Neyse ki, parlak insanlar aynı zamanda pozitif ve ayrık olan, ancak varyansın değişmesine izin verecek parametreler ekleyen (örneğin, negatif binom regresyonu) başka dağılımlar ortaya koydu.


5

T=1λT=tλ.tλ.tve olasılık dağılımı ise

p(N-=n)=(λ.t)ne-λ.tn!

Bu ve maksimum olabilirlik metodu ve genelleştirilmiş doğrusal modeller (veya başka bir yöntem) aracılığıyla Poisson regresyonuna ulaşırsınız .

Basit bir ifadeyle Poisson Regresyon, modeldeki diğer değişkenler tarafından belirlenen bir oranda (yani birim zaman başına sayı) az sayıda olay üreten temel rastgele sürecin varsayımlarına uyan modeldir.


3

Diğerleri de temelde aynı şeyi söylediğimi söylediler ama benim üstümü ekleyeceğimi düşündüm. Bu tam olarak ne yaptığınıza bağlıdır, fakat çoğu zaman eldeki sorunu / verileri kavramsallaştırmayı seviyoruz. Bu, sadece oldukça iyi tahmin eden bir model oluşturmakla karşılaştırıldığında biraz farklı bir yaklaşımdır. Neler olup bittiğini kavramsallaştırmaya çalışıyorsak, sayıları yalnızca tamsayı değerlerine yerleştiren negatif olmayan bir dağılım kullanarak modellemek mantıklı olur. Ayrıca, belirli şartlar altında veriyi gerçekten saydığımızı söyleyerek kaynayan pek çok sonuç var. olduğunubir poisson olarak dağıtılmış. Bu yüzden amacımız sorunu kavramsallaştırmaksa, cevap değişken olarak bir poisson kullanmak gerçekten mantıklı olacaktır. Diğerleri bunun neden iyi bir fikir olduğunu belirttiler, ancak sorunu gerçekten kavramsallaştırmaya çalışıyorsanız ve gördüğünüz verilerin nasıl üretilebileceğini gerçekten anlıyorsanız, bazı durumlarda bir poisson regresyonu kullanmak çok mantıklı geliyor.


2

Anladığım kadarıyla, sayımlar her zaman pozitif ve ayrık olduğu için Poisson, bu verileri bir parametreyle özetleyebilir. Asıl yakalama varyansın ortalamaya eşit olması.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.