Bu veriler bir binom glm için bir oranda toplanabilir mi?


11

Biz 60 kişi Atlanta olabildiğince çok sayıda restoran franchise listelemek istedi. Genel liste 70'ten fazla restoran içeriyordu, ancak insanların% 10'undan daha azı tarafından bahsedilenleri ortadan kaldırdık ve bizi 45 ile terk ettik. Bu 45 için, franchise'ı listeleyen muhbirlerin oranını hesapladık ve ilgileniyoruz bu oranı franchise'ın (log dönüşümlü) reklamcılık bütçesinin ve franchise olmasından bu yana geçen yılların bir fonksiyonu olarak modellemek.

Bu yüzden bu kodu yazdım:

model <- glm ( cbind (listed, 55-listed) ~ log.budget + years, family = binomial, data = list.45)

Tahmin edildiği gibi, her iki değişken de güçlü, anlamlı etkiler sergiler.

Ama orantılı verilerin asla OLS regresyonu ile modellenmemesi gerektiğini bilsem de, daha sonra bu kodu yazdım:

model.lm <- lm ( proportion.55 ~ log.budget + years, data = list.45)

Bu durumda, "bütçe" hala önemli bir yordayıcıdır, ancak "yıllar" nispeten zayıftır ve anlamlı değildir.

Tahminlere duyulan güvenin kümelenme tarafından yapay olarak şişirilmesi beni endişelendiriyor. Binom glm aslında modeli 45 * 55 = 2.475 satıra dayanacak şekilde vektörlemiyor mu? Gerçekten sadece 45 restoran ve 55 muhbirin olması uygun mu? Bu, karma efekt modellemesi gerektirir mi?


4
ipucu: ne olduğunu görünfamily=quasibinomial
Ben Bolker

1
İlginç. Tahmini katsayılar aynıdır, ancak standart hatalar daha muhafazakardır (ve kuasibinomiyal modelde yıllar anlamlı değildir). Quasibinomial için yardım dosyalarını arıyorum, ama neler olduğunu açıklayabilir misiniz? Benim izlenimim quasibinomial'in öncelikle aşırı dispersiyon için kullanılmasıydı. . .
Jeremy _

3
Kesinlikle. Bir arasındaki farkların çeşitli vardır lmve glm(...,family=binomial)fakat önemli olanlardan biri bir binom GLM varyans konusunda güçlü varsayımlar sağlamasıdır. Veriler fazla dağıtılmazsa, toplama / ayrıştırma hiçbir fark yaratmaz.
Ben Bolker

1
R çıkışı dispersiyon parametresinin 8.7 olarak alındığını gösterir. Bunun aşırı dağılım hakkında ne söylediğini anlamaya çalışıyorum. Bu arada, Ben, karışık modellerle oldukça fazla geçmişe sahip olduğunuzu görüyorum. Muhbir veya franchise için karışık efektler olmadan bir binom glm kullanarak güvenli miyim (bu durumda "Informant ID" için bir sütun eklerken muhtemelen tüm verileri vektörelemek zorunda kalacağım)?
Jeremy _

Yanıtlar:


1

Y=cX1k1X2k2...Xnknln(Y)=ln(c)+k1ln(X1)+k2ln(X2)...+knln(Xn)R,2

Şimdi değiştirilmemiş regresyon çizgisi (ideal olarak iki değişkenli bir regresyon, örneğin bir Deming regresyonu) makul olarak {0,0} 'dan geçmezse, biraz daha karmaşık hale gelir ve sıradan en az kullanmak yerine ofset orantılı bir kayıp fonksiyonunu en aza indirir. kareler.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.