Sürekli verilerin modellenmesinde Poisson dağılımı nasıl çalışır ve bilgi kaybına neden olur mu?


20

Bir iş arkadaşı, bazı kötü Heteroscedasticity ile tezi için bazı biyolojik verileri analiz ediyor (aşağıdaki şekil). Karma bir modelle analiz ediyor, ancak artıklarla sorun yaşıyor.

Yanıt değişkenlerinin log dönüştürülmesi işleri temizler ve bu soruya verilen geri bildirimlere dayanarak bu uygun bir yaklaşım gibi görünmektedir. Bununla birlikte, başlangıçta, dönüştürülmüş değişkenleri karma modellerle kullanma konusunda sorunlar olduğunu düşünmüştük. Littell & Milliken'in (2006) Karışık Modeller için SAS'ta sayım verilerini dönüştürmenin ve sonra normal bir doğrusal karışık modelle analiz etmenin neden uygun olmadığını gösteren bir ifadeyi yanlış yorumladığımız ortaya çıkıyor (tam teklif aşağıdadır) .

Kalıntıları da geliştiren bir yaklaşım, Poisson dağılımına sahip genelleştirilmiş doğrusal bir model kullanmaktı. Poisson dağılımının sürekli verileri modellemek için kullanılabileceğini (örneğin, bu yayında tartışıldığı gibi ) okudum ve istatistik paketleri buna izin veriyor, ancak model uygun olduğunda neler olduğunu anlamıyorum.

Temel hesaplamaların nasıl yapıldığını anlamak amacıyla, sorularım: Sürekli verilere bir Poisson dağılımı yerleştirdiğinizde, 1) veriler en yakın tam sayıya yuvarlanır mı 2) bu, bilgi kaybına ve 3) Sürekli veriler için bir Poisson modeli kullanmak ne zaman mümkün olur?

Littel & Milliken 2006, s. 529 "[sayım] verilerinin dönüştürülmesi verimsiz olabilir. Örneğin, bir dönüşüm rasgele model efektlerinin dağılımını veya modelin doğrusallığını bozabilir. Sonuç olarak, dönüştürülmüş veri kullanan karma bir modelden çıkarım oldukça şüphelidir. "

resim açıklamasını buraya girin


1
@Tomas gibi, karma bir modelden önce değişkenleri dönüştürmemeniz için hiçbir neden bilmiyorum ve bu konuda biraz okudum. Ramon ve Littel kitabım var .... hangi sayfaya referans veriyorsunuz?
Peter Flom - Monica'yı eski durumuna getirin

Anlaşılan o ki 529. sayfadaki bir ifadeyi yanlış yorumluyorduk.
N Brouwer

Yanıtlar:


22

Huber / White / Sandwich doğrusallaştırılmış varyans tahmini ile oldukça sık Poisson regresyonlarını sürekli olarak tahmin ediyorum. Ancak, bu bir şey yapmak için özellikle iyi bir neden değildir, bu yüzden bazı gerçek referanslar.

y

Poisson'un en iyi gösteride yer aldığı Santos Silva ve Tenreyro'dan (2006) da cesaret verici bazı simülasyon kanıtları var . Sonuçta çok sayıda sıfır bulunan bir simülasyonda da iyi sonuç verir . Bunun kar tanesi kasanızda çalıştığına kendinizi ikna etmek için kendi simülasyonunuzu da kolayca yapabilirsiniz.

Son olarak, log link fonksiyonlu bir GLM ve Poisson ailesi de kullanabilirsiniz. Bu, aynı sonuçları verir ve sadece veri içeren diz sarsıntısı tepkilerini yerleştirir.

Kontrollü Bağlantı Olmadan Referanslar:

Gourieroux, C., A. Monfort ve A. Trognon (1984). “Yalancı Maksimum Olabilirlik Yöntemleri: Poisson Modellerine Uygulamalar,” Econometrica , 52, 701-720.


2
Ayrıca, Bill Gould tarafından yazılan Stata blogundaki bu güzel blog girişine bakın - blog.stata.com/2011/08/22/…
boscovich

1
y

Stata blogunda ek simülasyon kanıtı sunan ilgili bir yazı var .
Dimitriy V. Masterov

6

Poisson dağılımı sadece sayım verileri içindir, sürekli verilerle beslemeye çalışmak kötüdür ve yapılmaması gerektiğine inanıyorum. Bunun nedenlerinden biri, sürekli değişkeninizi nasıl ölçeklendireceğinizi bilmemenizdir. Ve Poisson büyük ölçüde ölçeğe bağlıdır! Burada basit bir örnekle anlatmaya çalıştım . Bu nedenle yalnızca Poisson'u veri saymaktan başka bir şey için kullanmam.

Ayrıca GLM'nin 2 şey yaptığını unutmayın - bağlantı işlevi (yanıt var. Dönüştürülmesi, Poisson durumunda oturum açma) ve artıklar (bu durumda Poisson dağılımı). Biyolojik görevi, kalıntıları düşünün ve sonra uygun yöntemi seçin. Bazen günlük dönüşümü kullanmak mantıklıdır, ancak normal olarak dağıtılan artıklarla kalır.

"ama geleneksel bilgelik gibi görünüyor karışık bir modele giren verileri dönüştürmemelisiniz"

Bunu ilk kez duyuyorum! Bana hiç mantıklı gelmiyor. Karışık model, rastgele efektler ekleyerek normal bir doğrusal model gibi olabilir. Buraya kesin bir alıntı yapabilir misiniz? Bence, eğer günlük dönüşümü bir şeyleri temizlerse, onu kullanın!


Yardım için teşekkürler; "geleneksel bilgelik" olduğunu düşündüğüm Littel ve Milliken'in yanlış okumasıydı. Sorumu düzenledim ve teklifi L & M 2006'dan ekledim.
N Brouwer

@NBrouwer: evet, aslında yanlış yorumladığınız anlaşılıyor. Sayım verilerini dönüştürmek kötüdür ve verileri saymak ve Poisson'u buna sığdırmaya çalışmak için sürekli verileri dönüştürmek daha da kötüdür! Size anlatmaya çalıştığım da buydu. Yapma. Tek yapmanız gereken sürekli verilerinizi istediğiniz gibi dönüştürmek . Bu istatistiklerde çok yaygındır, endişelenmenize gerek yoktur.
Meraklı

5

Poisson modelinin günlük gerilemelerine uyacak şekilde nasıl kullanılacağı hakkında başka bir harika tartışma: http://blog.stata.com/2011/08/22/use-poisson-rather-than-regress-tell-a-friend/ (Blog girişinin önerdiği gibi bir arkadaşa söylüyorum). Temel itiş, Poisson modelinin sadece log linki olan kısmını kullanmamızdır. Varyansın ortalamaya eşit olmasını gerektiren kısım, varyansın bir sandviç tahmini ile geçersiz kılınabilir. Bununla birlikte, hepsi iid verileri içindir; kümelenmiş / karışık model uzantılarına Dimitriy Masterov tarafından uygun şekilde atıfta bulunulmuştur .


1

Sorun ortalama ile varyans ölçeklendirmesiyse, ancak sürekli verileriniz varsa, karşılaştığınız sorunları karşılayabilecek sürekli dağılımları kullanmayı düşündünüz mü? Belki bir Gamma? Varyansın ortalama ile ikinci dereceden bir ilişkisi olacaktır - aslında negatif bir binom gibi.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.