Biz 60 kişi Atlanta olabildiğince çok sayıda restoran franchise listelemek istedi. Genel liste 70'ten fazla restoran içeriyordu, ancak insanların% 10'undan daha azı tarafından bahsedilenleri ortadan kaldırdık ve bizi 45 ile terk ettik. Bu 45 için, franchise'ı listeleyen muhbirlerin oranını hesapladık ve ilgileniyoruz bu oranı franchise'ın (log dönüşümlü) reklamcılık bütçesinin ve franchise olmasından bu yana geçen yılların bir fonksiyonu olarak modellemek.
Bu yüzden bu kodu yazdım:
model <- glm ( cbind (listed, 55-listed) ~ log.budget + years, family = binomial, data = list.45)
Tahmin edildiği gibi, her iki değişken de güçlü, anlamlı etkiler sergiler.
Ama orantılı verilerin asla OLS regresyonu ile modellenmemesi gerektiğini bilsem de, daha sonra bu kodu yazdım:
model.lm <- lm ( proportion.55 ~ log.budget + years, data = list.45)
Bu durumda, "bütçe" hala önemli bir yordayıcıdır, ancak "yıllar" nispeten zayıftır ve anlamlı değildir.
Tahminlere duyulan güvenin kümelenme tarafından yapay olarak şişirilmesi beni endişelendiriyor. Binom glm aslında modeli 45 * 55 = 2.475 satıra dayanacak şekilde vektörlemiyor mu? Gerçekten sadece 45 restoran ve 55 muhbirin olması uygun mu? Bu, karma efekt modellemesi gerektirir mi?
lm
ve glm(...,family=binomial)
fakat önemli olanlardan biri bir binom GLM varyans konusunda güçlü varsayımlar sağlamasıdır. Veriler fazla dağıtılmazsa, toplama / ayrıştırma hiçbir fark yaratmaz.
family=quasibinomial