Doğrusal regresyon, sonuçlarınız için doğru seçim değildir:
- Sonuç değişkeni normalde dağıtılmaz
- Sonuç değişkeni, alabileceği değerlerle sınırlıdır (verileri say, tahmin edilen değerlerin negatif olamayacağı anlamına gelir)
- 0 ziyaretli vakaların sıklığı yüksek gibi görünüyor
Sayım verileri için sınırlı bağımlı değişken modeller
Aralarından seçim yapabileceğiniz tahmin stratejisi, sonuç değişkeninizin "yapısı" tarafından belirlenir. Yani, sonuç değişkeniniz alabileceği değerlerle sınırlıysa (yani sınırlı bir bağımlı değişkense ), tahmin edilen değerlerin sonucunuz için olası aralığa gireceği bir model seçmeniz gerekir. Bazen doğrusal regresyon sınırlı bağımlı değişkenler için iyi bir yaklaşım olsa da (örneğin, ikili logit / probit durumunda) çoğu zaman değildir. Genelleştirilmiş Doğrusal Modeller girin . Sizin durumunuzda, sonuç değişkeni sayım verileri olduğundan, birkaç seçeneğiniz vardır:
- Poisson modeli
- Negatif Binom modeli
- Sıfır Şişirilmiş Poisson (ZIP) modeli
- Sıfır Şişirilmiş Negatif Binom (ZINB) modeli
Seçim genellikle ampirik olarak belirlenir. Aşağıda bu seçenekler arasından seçim yapmayı kısaca tartışacağım.
Poisson ve Negatif Binom
Genel olarak Poisson, yukarıda bahsettiğim 4 sayım veri modelinin "genel işgücü" modelidir. Modelin bir sınırlaması, koşullu varyansın = her zaman doğru olmayabilecek koşullu ortalama olduğu varsayımıdır. Modeliniz aşırı yayılmışsa (koşullu varyans> koşullu ortalama), bunun yerine Negatif Binom modelini kullanmanız gerekir. Neyse ki, Negatif Binom'u çalıştırdığınızda, çıktı genellikle dağılım parametresi için istatistiksel bir test içerir (R, bu dağılım parametresini " diğer paketlerdeki" alfa "olarak adlandırılan" theta ( ) "olarak adlandırır). Poisson ve Negatif Binom arasındaki seçimdeki sıfır hipotezi: , alternatif hipotez .θ'H0: θ = 0'H1: θ ≠ 0θ önemlidir, modelde aşırı dağılma olduğuna dair kanıtlar vardır ve Poisson üzerinde Negatif Binom seçersiniz. Katsayı istatistiksel olarak anlamlı değilse, Poisson sonuçlarını sunun.
ZIP vs ZINB
Potansiyel bir komplikasyon, sıfır enflasyon olup, burada bir sorun olabilir. Burada sıfır şişirilmiş ZIP ve ZINB modelleri devreye giriyor. Bu modelleri kullanarak sıfır değerleri üreten işlemin sıfır olmayan diğer değerleri üreten işlemden ayrı olduğunu varsayıyorsunuz. Daha önce olduğu gibi, ZINB, sonuçta aşırı sıfır olduğunda ve aşırı dağıldığında uygundur, ZIP ise sonuçta aşırı sıfır olduğunda, ancak koşullu ortalama = koşullu varyans olduğunda uygundur. Sıfır şişirilmiş modeller için, yukarıda listelediğiniz model değişkenlerine ek olarak, sonuçta gördüğünüz aşırı sıfırları üretmiş olabilecek değişkenleri düşünmeniz gerekir. Yine, bu modellerin çıktısıyla gelen istatistiksel testler vardır (bazen bir komutu yürüttüğünüzde bunları belirtmeniz gerekebilir)ampirik olarak hangi modelin verileriniz için en iyi olduğuna karar verin. İlgilenilen iki test vardır: Birincisi, dağılım parametresindeki katsayının testidir ve ikincisi, Vuong testi olarak bilinen, aşırı sıfırların ayrı bir işlem tarafından üretilip üretilmediğini söyler (örn. gerçekten de sonuçta sıfır enflasyon).θ
ZIP ve ZINB arasındaki seçimi karşılaştırırken dağılım parametresinin testine tekrar bakacaksınız . Yine, (ZIP daha iyi uyuyor) ve (ZINB daha iyi uyuyor). Vuong testi Poisson ile ZIP veya NB ile ZINB arasında karar vermenizi sağlar. Vuong test için, (Poisson / NB daha iyi bir uyum) ve (PK / ZINB daha iyi bir uyum sağlar).θ'H0: θ = 0'H1: θ ≠ 0'H0: Ex c e s s ze r o e s i s n o t bir r e s u l t o f bir s e p a r a t e p r o c e s sz e r o e s i s a r e s u l t o f a s e p a r a t e p r o c e s s'H1: Ex c e s s ze r o e s i s bir r e s u l t o f bir s e p a r a t e p r o c e s s
Diğer kullanıcılar "olağan" iş akışı hakkında yorum yapabilir, ancak yaklaşımım verileri görselleştirmek ve oradan gitmek. Sizin durumunuzda, muhtemelen ZINB ile başlıyorum ve hem üzerindeki katsayı üzerinde hem de Vuong testi üzerinde çalışacağım , çünkü theta'daki katsayıdaki test size ZIP ve ZINB arasında hangisinin daha iyi olduğunu söyleyecektir. Vuong testi, sıfır şişirilmiş modelleri kullanmanız gerekip gerekmediğini söyleyecektir. θθθ
Son olarak, R kullanmıyorum, ancak UCLA veri analizi örnekleri sayfasındaki IDRE, bu modellerin takılmasında size rehberlik edebilir.
[Yorum yapmak için yeterli üne sahip olmayan başka bir kullanıcı tarafından düzenleyin: Bu makale, sıfır şişirme modelini karşılaştırmak için neden Vuong testini kullanmamanız gerektiğini açıklıyor ve alternatifler sunuyor.
P. Wilson, “Sıfır Enflasyon Testi için Yuvalanmamış Modellerde Vuong Testinin Kötüye Kullanımı.” Ekonomi Mektupları, 2015, cilt. 127, sayı C, 51-53 ]