Çarpık verilerle regresyon


12

Demografi ve hizmetten ziyaret sayılarını hesaplamaya çalışmak. Veriler çok eğri.

histogramlar:

histogramlar

qq grafikleri (sol günlüktür):

qq grafikleri - sağ günlük

m <- lm(d$Visits~d$Age+d$Gender+city+service)
m <- lm(log(d$Visits)~d$Age+d$Gender+city+service)

cityve servicefaktör değişkenleridir.

Tüm değişkenler için düşük bir p değeri *** elde ediyorum, ancak aynı zamanda .05 gibi düşük bir r kare elde ediyorum. Ne yapmalıyım? Üstel veya başka bir şey gibi başka bir model çalışır mı?


Başlangıçta yüksek bir sıfır frekansı olduğunu düşündüğüm şey aslında iki kez yüksek bir frekans olduğundan, bize veri oluşturma süreci hakkında biraz daha bilgi verebilir misiniz? İnsanlar ne tür bir hizmet içindeydiler ve analizin “nihai hedefi” ne? Bir dizi özellik (yani hizmet kalitesinin bir ölçüsü olarak) verildiğinde ziyaretlerin sayısını (sayısını) tahmin etmeye mi çalışıyorsunuz? Araştırma sorunuzu cevaplamak için sonucu mutlaka saymanız mı gerekiyor, yoksa sonuç değişkenini daha az, ancak daha büyük kategorilere ayırabilir misiniz?
Marquis de Carabas

2
Sayım verileriniz var. Bu sitede Poisson regresyonu için arama yapın.
kjetil b halvorsen

Yanıtlar:


11

Doğrusal regresyon, sonuçlarınız için doğru seçim değildir:

  1. Sonuç değişkeni normalde dağıtılmaz
  2. Sonuç değişkeni, alabileceği değerlerle sınırlıdır (verileri say, tahmin edilen değerlerin negatif olamayacağı anlamına gelir)
  3. 0 ziyaretli vakaların sıklığı yüksek gibi görünüyor

Sayım verileri için sınırlı bağımlı değişken modeller

Aralarından seçim yapabileceğiniz tahmin stratejisi, sonuç değişkeninizin "yapısı" tarafından belirlenir. Yani, sonuç değişkeniniz alabileceği değerlerle sınırlıysa (yani sınırlı bir bağımlı değişkense ), tahmin edilen değerlerin sonucunuz için olası aralığa gireceği bir model seçmeniz gerekir. Bazen doğrusal regresyon sınırlı bağımlı değişkenler için iyi bir yaklaşım olsa da (örneğin, ikili logit / probit durumunda) çoğu zaman değildir. Genelleştirilmiş Doğrusal Modeller girin . Sizin durumunuzda, sonuç değişkeni sayım verileri olduğundan, birkaç seçeneğiniz vardır:

  1. Poisson modeli
  2. Negatif Binom modeli
  3. Sıfır Şişirilmiş Poisson (ZIP) modeli
  4. Sıfır Şişirilmiş Negatif Binom (ZINB) modeli

Seçim genellikle ampirik olarak belirlenir. Aşağıda bu seçenekler arasından seçim yapmayı kısaca tartışacağım.


Poisson ve Negatif Binom

Genel olarak Poisson, yukarıda bahsettiğim 4 sayım veri modelinin "genel işgücü" modelidir. Modelin bir sınırlaması, koşullu varyansın = her zaman doğru olmayabilecek koşullu ortalama olduğu varsayımıdır. Modeliniz aşırı yayılmışsa (koşullu varyans> koşullu ortalama), bunun yerine Negatif Binom modelini kullanmanız gerekir. Neyse ki, Negatif Binom'u çalıştırdığınızda, çıktı genellikle dağılım parametresi için istatistiksel bir test içerir (R, bu dağılım parametresini " diğer paketlerdeki" alfa "olarak adlandırılan" theta ( ) "olarak adlandırır). Poisson ve Negatif Binom arasındaki seçimdeki sıfır hipotezi: , alternatif hipotez .θH0:θ=0H1:θ0θ önemlidir, modelde aşırı dağılma olduğuna dair kanıtlar vardır ve Poisson üzerinde Negatif Binom seçersiniz. Katsayı istatistiksel olarak anlamlı değilse, Poisson sonuçlarını sunun.

ZIP vs ZINB

Potansiyel bir komplikasyon, sıfır enflasyon olup, burada bir sorun olabilir. Burada sıfır şişirilmiş ZIP ​​ve ZINB modelleri devreye giriyor. Bu modelleri kullanarak sıfır değerleri üreten işlemin sıfır olmayan diğer değerleri üreten işlemden ayrı olduğunu varsayıyorsunuz. Daha önce olduğu gibi, ZINB, sonuçta aşırı sıfır olduğunda ve aşırı dağıldığında uygundur, ZIP ise sonuçta aşırı sıfır olduğunda, ancak koşullu ortalama = koşullu varyans olduğunda uygundur. Sıfır şişirilmiş modeller için, yukarıda listelediğiniz model değişkenlerine ek olarak, sonuçta gördüğünüz aşırı sıfırları üretmiş olabilecek değişkenleri düşünmeniz gerekir. Yine, bu modellerin çıktısıyla gelen istatistiksel testler vardır (bazen bir komutu yürüttüğünüzde bunları belirtmeniz gerekebilir)ampirik olarak hangi modelin verileriniz için en iyi olduğuna karar verin. İlgilenilen iki test vardır: Birincisi, dağılım parametresindeki katsayının testidir ve ikincisi, Vuong testi olarak bilinen, aşırı sıfırların ayrı bir işlem tarafından üretilip üretilmediğini söyler (örn. gerçekten de sonuçta sıfır enflasyon).θ

ZIP ve ZINB arasındaki seçimi karşılaştırırken dağılım parametresinin testine tekrar bakacaksınız . Yine, (ZIP daha iyi uyuyor) ve (ZINB daha iyi uyuyor). Vuong testi Poisson ile ZIP veya NB ile ZINB arasında karar vermenizi sağlar. Vuong test için, (Poisson / NB daha iyi bir uyum) ve (PK / ZINB daha iyi bir uyum sağlar).θH0:θ=0H1:θ0H0:Excess zeroes is not a result of a separate processz e r o e s i s a r e s u l t o f a s e p a r a t e p r o c e s sH1:Excess zeroes is a result of a separate process


Diğer kullanıcılar "olağan" iş akışı hakkında yorum yapabilir, ancak yaklaşımım verileri görselleştirmek ve oradan gitmek. Sizin durumunuzda, muhtemelen ZINB ile başlıyorum ve hem üzerindeki katsayı üzerinde hem de Vuong testi üzerinde çalışacağım , çünkü theta'daki katsayıdaki test size ZIP ve ZINB arasında hangisinin daha iyi olduğunu söyleyecektir. Vuong testi, sıfır şişirilmiş modelleri kullanmanız gerekip gerekmediğini söyleyecektir. θθθ

Son olarak, R kullanmıyorum, ancak UCLA veri analizi örnekleri sayfasındaki IDRE, bu modellerin takılmasında size rehberlik edebilir.

[Yorum yapmak için yeterli üne sahip olmayan başka bir kullanıcı tarafından düzenleyin: Bu makale, sıfır şişirme modelini karşılaştırmak için neden Vuong testini kullanmamanız gerektiğini açıklıyor ve alternatifler sunuyor.

P. Wilson, “Sıfır Enflasyon Testi için Yuvalanmamış Modellerde Vuong Testinin Kötüye Kullanımı.” Ekonomi Mektupları, 2015, cilt. 127, sayı C, 51-53 ]


çoğunluk 2 ~ ziyarettir. Tüm kayıtlar 1'den fazla ziyaret
pxxd

Ben hem poisson hem de gama glm için benzer qq arazileri alıyorum, tamam mı?
pxxd

3
Sonuç değişkeni, normal dağılım değil 1. değildir başına doğrusal regresyon karşı geçerli bir argüman. Tahmincinin güzel özelliklerini (tutarlılık ve asimtotik normallik gibi) garanti eden bir dizi regresyon varsayımı, sonuç değişkeninin normalliğini (hatta hataların normalliğini içermez) içermez.
Richard Hardy

2

Gamma Dağılımlı Genelleştirilmiş Doğrusal Modeli Deneyin. Pozitif olduğu ve x = 0 olduğu zaman sıfıra eşit olduğu bağımlı değişkeninize de yakın olabilir. Benzer bir durumda R ve GLM'yi biraz başarı ile kullandım.


oradaki ziyaret günlüğünü veya bağlantı günlüğünü nasıl kullanırım? glm (d Yaş + d $ Cinsiyet + şehir + mdc, aile = Gama (bağlantı = günlük)) Benzer bir qq çizimi alıyorumVisits d
pxxd

1
Hayır, günlük bağlantısını değil, kimlik bağlantısını kullanmanız gerektiğine inanıyorum. Ama önce gamma fonksiyonunun dağılımınıza ne kadar uyduğunu kontrol edin.
Diego

0

Tüm istatistiksel varsayımlar bir modeldeki hatalarla ilgilidir. Haftanın gününü yansıtan 6 gösterge serisini kullanarak basit bir model oluşturursanız ... hataların çok daha güzel dağılımını görmeye başlayacaksınız. Aylık efektleri ve tatil etkilerini (ÖNCE, AÇIK VE SONRA) dahil etmeye devam edin ve hataların dağılımı daha da güzelleşecektir. Ayın gününü, ayın haftasını, uzun hafta sonu göstergelerini ve diğer şeyleri eklemek daha da güzelleşecek.

Bak güncel ve tarihsel veriler verilen misafirler tahmin sayısının Basit yöntemle ve https://stats.stackexchange.com/search?q=user%3A3382+daily+data daha eğlenceli okumak için.


1
Bu cevap aslında sorulan soruyu ilgilendirmiyor gibi görünüyor. Bağlantıyı açık yapabilir misiniz?
whuber

Günlük verilerini önermek için DVISITS'ini aldım ... eğer öyle değilse cevabımı iptal ediyorum. Gerçekten kesitsel ise .. o zaman belki de büyük sınıflandırmalarla verileri katmanlaştırmayı düşünmelidir.
IrishStat
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.