Sayım verileriyle birlikte kullanmak için en uygun regresyon modeli hangisidir?


10

İstatistiklere biraz girmeye çalışıyorum, ama bir şeye sıkıştım. Verilerim aşağıdaki gibidir:

Year   Number_of_genes
1990          1
1991          1
1993          3
1995          4

Şimdi verilere dayanarak herhangi bir yıl için gen sayısını tahmin edebilmek için bir regresyon modeli oluşturmak istiyorum. Şimdiye kadar doğrusal regresyon ile yaptım, ama biraz okuma yaptım ve bu tür veriler için en iyi seçim gibi görünmüyor. Poisson regresyonunun yararlı olabileceğini okudum, ancak ne kullanacağımdan emin değilim. Benim sorum şu:

Bu tür veriler için genel bir regresyon modeli var mı? Cevabınız hayırsa, hangi yöntemin en uygun olduğunu bulmak için ne yapmam gerekiyor (veriler hakkında ne bulmam gerekiyor)?



2
Bu zaman serisi verileriyle mi ilgili?
Michael M

Yanıtlar:


22

Hayır, genel sayım veri regresyon modeli yoktur.

( Sürekli veriler için genel bir regresyon modeli olmadığı gibi , normal olarak dağıtılmış homoskedastik gürültüye sahip doğrusal bir model en yaygın olarak kabul edilir ve Sıradan En Küçük Kareler kullanılarak takılır. Bununla birlikte, farklı hata dağıtım varsayımlarıyla başa çıkmak için genellikle gama regresyonu veya üstel regresyon kullanılır. veya heteroskedastik gürültü ile başa çıkmak için zaman serisi bağlamında ARCH veya GARCH gibi koşullu heteroskedastisite modelleri.)

Yaygın modeller, yazarken veya Negatif Binom Regresyonunu içerir. Bu modeller her türlü yazılımı, öğreticiyi veya ders kitabını bulmak için yeterince yaygındır. Özellikle Hilbe'nin Negatif Binom Regresyonunu seviyorum . Bu önceki soru , farklı sayım veri modelleri arasında nasıl seçim yapılacağını açıklamaktadır.

Verilerinizde "çok" sıfır varsa ve özellikle sıfırların sıfır olmayanlardan farklı bir veri oluşturma işlemi tarafından yönlendirilebileceğinden şüpheleniyorsanız (veya bazı sıfırlar bir DGP'den gelir ve diğer sıfırlar ve sıfır olmayanlar gelir) farklı bir DGP'den), modelleri yararlı olabilir. En yaygın olanı sıfır şişirilmiş Poisson (ZIP) regresyonudur.

Hem "regresyon" hem de "sayım verileri" etiketli önceki sorularımıza göz atabilirsiniz .


EDIT: @MichaelM iyi bir noktaya değiniyor. Bu does sayım verilerinin zaman serileri gibi görünüm. (Ve 1992 ve 1994 için eksik veriler bana bu yılların her birinde sıfır olması gerektiğini gösteriyor. Öyleyse, ekleyin. Sıfır geçerli bir sayıdır ve bilgi taşır.) Bunun ışığında, ben Ayrıca, "zaman serileri" ve "sayım verileri" etiketli önceki sorularımızı da incelemenizi öneririz .


4
İyi, ama Sıradan En Küçük Kareler bir model değil, bir tahmin prosedürüdür. Bunu biliyorsunuz, ancak bu yaygın bir karışıklık, bu yüzden onu şımartan yazmamalıyız.
Nick Cox

@NickCox: iyi bir nokta. Yazımı düzenledim.
Stephan Kolassa

11

Sayılan veriler için tercih edilen en yaygın kullanılan ve tarif edilen "varsayılan", Poisson dağılımıdır . Çoğu zaman ilk pratik kullanımına örnek olarak gösterilmektedir:

Bu dağılımın pratik bir uygulaması, 1898'de Prusya ordusunda kazara atılan öldürülen askerlerin sayısını araştırma görevi verildiğinde Ladislaus Bortkiewicz tarafından yapıldı; bu deney Poisson dağılımını güvenilirlik mühendisliği alanına tanıttı.

Poisson dağılımı sabit zaman aralığı başına oran ile parametrelendirilir ( da ortalama ve varyanstır). Regresyon durumunda Poisson dağılımını log-lineer link fonksiyonu ile genelleştirilmiş lineer modelde kullanabilirizλλλ

E(Y|X,β)=λ=exp(β0+β1X1++βkXk)

Poisson regresyonu denir çünkü bir Poisson dağılımı oranı olduğunu varsayabiliriz . Bununla birlikte, log-lineer regresyon için böyle bir varsayım yapmanız gerekmediğine ve sadece sayım dışı verilerle log linkli GLM kullanmanıza dikkat edin . Parametreleri yorumlarken, günlük dönüşümü kullanıldığından bağımsız değişkenlerdeki değişikliklerin öngörülen sayımlarda çarpma değişikliğine yol açtığını hatırlamanız gerekir.λ

Gerçek hayat verileri için Poisson dağılımının kullanılmasındaki sorun, varyansa eşit olduğunu varsaymasıdır. Bu varsayımın ihlaline aşırı dağılım denir . Bu gibi durumlarda her zaman yarı Poisson modeli, Poisson olmayan log-lineer model (büyük sayılar için Poisson normal dağılıma yaklaştırılabilir), negatif binom regresyonunu (Poisson ile yakından ilgili; bkz. Berk ve MacDonald, 2008) veya Stephan Kolassa tarafından tarif edilen diğer modeller .

Poisson regresyonuna samimi bir giriş yapmak için Lavery (2010) veya Coxe, West ve Aiken (2009) makalelerini de kontrol edebilirsiniz.


Lavery, R. (2010). Hareketli Bir Kılavuz: Poisson Regresyonuna Giriş. NESUG kağıdı, sa04.

Coxe, S., West, SG ve Aiken, LS (2009). Sayım verilerinin analizi: Poisson regresyonuna ve alternatiflerine yumuşak bir giriş. Kişilik değerlendirme dergisi, 91 (2), 121-136.

Berk, R. ve MacDonald, JM (2008). Aşırı dağılım ve Poisson regresyonu. Nicel Kriminoloji Dergisi, 24 (3), 269-284.


2
Bir Poisson dağılımını uydurmayı bir Poisson regresyonu kullanarak birleştirirsiniz. Yanıtın Poisson dağılımı olması Poisson regresyonu için mutlak bir gereklilik değildir. Poisson regresyonu, ölçülen değişkenler de dahil olmak üzere çok çeşitli olumlu tepkiler için iyi çalışır. Çıkarım için standart hatalar konusunda dikkatli olmak iyi bir fikirdir, ancak bu izlenebilir. Örneğin, bkz. Blog.stata.com/2011/08/22/…
Nick Cox

@NickCox doğru, ancak soru kesinlikle sayım verileriyle ilgiliydi, bu yüzden muhtemelen Poisson regresyonunun diğer kullanımları hakkında ayrıntılara girmeye gerek yoktur.
Tim

3
Detaylara girmeye gerek yok, kabul etti; ama Poisson regresyonunu biraz zorlamak için her neden. Faydası şaşırtıcı derecede az bilinir; en azından çok daha ara metinlerde olmayı hak ediyor. Ayrıca, ve daha da önemlisi, bir kez varyans eşit olduğunda diğer modelleri kullanmanız gerektiği anlamına gelmez; bu iki farklı problemi karıştırıyor.
Nick Cox

Dahası, Poisson regresyonunun ölçülen değişkenlerle kullanılabilmesi, bu gibi durumlarda ortalama varyansın eşit olup olmadığı farklı boyutlara sahip olduğu için bile anlamlı değildir. Bu tür vakalar bu nedenle gereksinimin böyle bir şey olmadığının altını çizmektedir.
Nick Cox

3
Sorunun bir kısmı terminolojidir. Benim görüşüme göre, Poisson olmanın merkezi olmadığı ana nokta düşünüldüğünde, loglinear regresyon Poisson regresyonundan daha iyi bir terim olacaktır. Fakat eğer böyle bir terim kullanılmış ve anlaşılmışsa, tipik olarak tamamen sayılan kategorik verilerin modellenmesi içindir. Bu nedenle, terminoloji oldukça yanlış bir yoldur: loglinear Poisson ve Poisson loglinear olmalıdır. Her iki durumda da, konunun kalbi, nin genel olarak negatif olmayan yanıtların ortalama yapısı için mükemmel bir ilk çağrı limanı olmasıdır. exp(Xb)
Nick Cox

0

Poisson veya negatif binom sayım verileri için yaygın olarak kullanılan iki modeldir. Varyans için daha iyi varsayımlara sahip olduğu için negatif binomu tercih ederim.


3
"Daha iyi" ile ne demek istiyorsun?
Tim

2
Bu durum bir cevaptan çok bir yorumdur. Sizce genişleyebilir misiniz? Kesinlikle Tim'in yorumunu düşünmelisiniz - "daha iyi" kelimesi çok belirsiz
Silverfish

Negatif binom (NB) modelleri, kümelenmeye bağlı olduğu varsayılarak aşırı dağılmış (OD) sayım verileriyle ilgilenir. Daha sonra 'içeride' dağıtılmış bir Poisson ve aralarında dağıtılmış bir gama ile rastgele bir kesişme modeli kullanır. Hangisi daha iyi OD için varsayımınıza bağlıdır. OD derecesinin küme boyutuna göre değiştiğini varsayarsanız, NB yardımcı olabilir. OD'nin küme boyutu ile orantılı olduğunu varsayarsanız, quasi-poisson bu varsayımı taşır. OD sadece Gauss gürültüsü ise NB tahminleri taraflı olacaktır. Poisson daha az yanlı olacaktır, ancak standart hatalar OD ile çok küçük olabilir.
Main
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.