Logit dönüşümlü doğrusal regresyon, lojistik regresyon ve lojistik karma model arasındaki fark nedir?


10

Her biri 20 matematik problemini çözmeye çalışan 10 öğrencim olduğunu varsayalım. Sorunlar doğru veya yanlış (uzun veri olarak) puanlanır ve her öğrencinin performansı bir doğruluk ölçüsü ile özetlenebilir (subjdata'da). Aşağıdaki 1, 2 ve 4 modelleri farklı sonuçlar üretiyor gibi görünüyor, ancak aynı şeyi yaptıklarını anlıyorum. Neden farklı sonuçlar üretiyorlar? (Referans için model 3'ü dahil ettim.)

library(lme4)

set.seed(1)
nsubjs=10
nprobs=20
subjdata = data.frame('subj'=rep(1:nsubjs),'iq'=rep(seq(80,120,10),nsubjs/5))
longdata = subjdata[rep(seq_len(nrow(subjdata)), each=nprobs), ]
longdata$correct = runif(nsubjs*nprobs)<pnorm(longdata$iq/50-1.4)
subjdata$acc = by(longdata$correct,longdata$subj,mean)
model1 = lm(logit(acc)~iq,subjdata)
model2 = glm(acc~iq,subjdata,family=gaussian(link='logit'))
model3 = glm(acc~iq,subjdata,family=binomial(link='logit'))
model4 = lmer(correct~iq+(1|subj),longdata,family=binomial(link='logit'))

Ben de beta regresyon denedim, ama bir hata var ... library(betareg) model5 = betareg(acc~scale(iq),subjdata)
user20061

library(car)logit işlevi için gereklidir.
user20061

1
İlgili sorulara cevaplarımdan ikisini okumanıza yardımcı olabilir: Logit ve probit modelleri arasındaki fark (genel olarak bağlantı fonksiyonlarını ve GLiM'leri tartışır - sonunda bir yorum özellikle 1 ve 3'ünüze hitap eder) & Genelleştirilmiş doğrusal modeller arasındaki fark & genelleştirilmiş doğrusal karışık modeller (4'ünüzün 1 & 3'ten nasıl farklı olduğunu tartışır).
gung - Monica'yı eski

Yanıtlar:


15

Model 1 ve 2 farklıdır, çünkü birincisi yanıtı, ikincisi beklenen değerini dönüştürür.

Model 1 için her cevabın logit değeri normalde ortalamasıyla birlikte kestirimci ve katsayı vektörlerinin doğrusal bir fonksiyonu olmak. ve bu nedenle Model 2 için yanıt normalde , ortalama öngörücünün doğrusal bir işlevi ve vektörleri ve dolayısıyla μ i = x i β Y i = logit - 1 ( x i β + ε i ) Y iN ( μ i , σ 2 ) logit μ i = x i β Y i = logit - 1 ( x

lojitYben~N-(μben,σ2)
μben=xben'β
Yben=lojit-1(xben'β+εben)
Yben~N-(μben,σ2)
lojitμben=xbenβ
Yben=lojit-1(xben'β)+εben

Böylece varyans yapısı farklı olacaktır. Model 2'den benzetim yaptığınızı düşünün: varyans beklenen değerden bağımsız olacaktır; & cevapların beklenen değerleri 0 & 1 arasında olsa da, cevapların hepsi olmayacaktır.

Model 4 gibi genelleştirilmiş doğrusal karışık modeller farklıdır çünkü rastgele efektler içerir: buraya ve buraya bakın .


Çok teşekkür ederim - bu model 1 ve model 2'yi açıkça ayırt ediyor. Model 2'nin [doğruluk değerleri olmasa da) bazı doğruluk puanlarını [0,1] dışında olmasını öngördüğünüz gerekçeleri özellikle yararlıdır (ve benim amacım için diskalifiye eder) ). Benzer bir sezginin model 1'e karşı kullanılabileceğine inanıyorum: olası tahmin edilen doğruluk skorları aralığı [0,1] değil (0,1) 'dir. Sınırlı sayıda soru ile, bir model bazı doğruluk puanlarının 0 veya 1 olduğunu tahmin etmelidir ve bir binom dağılımı bunu yapabilir.
user20061

2
Binom longdata
GLM'yi genellikle

7

Çok net ve özlü bir cevap veren @Scortchi'ye +1. Birkaç tamamlayıcı noktaya değinmek istiyorum. İlk olarak, ikinci modeliniz için, yanıt dağılımınızın Gauss (normal, normal) olduğunu belirtiyorsunuz. Bu yanlış olmalıdır, çünkü her cevap doğru veya yanlış olarak puanlanır. Yani, her cevap bir Bernoulli davasıdır. Dolayısıyla, yanıt dağılımınız bir Binom'dur. Bu fikir kodunuza da doğru bir şekilde yansır. Daha sonra, yanıt dağılımını yönetme olasılığı normal olarak dağıtılır, bu nedenle bağlantı logit değil probit olmalıdır. Son olarak, eğer bu gerçek bir durum olsaydı, hem özneler hem de sorular için rastgele etkileri hesaba katmanız gerekir, çünkü bunların aynı olma ihtimali çok düşüktür. Bu verileri yaratma şekliniz, her bireyin tek alakalı yönü onların IQ'sudur, açık bir şekilde muhasebeleştirdiğiniz. Dolayısıyla, modelde rastgele bir etki ile açıklanması gereken hiçbir şey kalmamıştır. Bu aynı zamanda sorular için de geçerlidir, çünkü soru zorluğundaki rastgele varyasyonlar kodunuzdaki veri oluşturma sürecinin bir parçası değildir.

Burada çirkin olmak istemiyorum. Kurulumunuzun basitçe sorunuzu kolaylaştırmak için tasarlandığını ve bu amaca hizmet ettiğini biliyorum; @Scortchi, sorularınızı çok az telaş ile çok doğrudan ele alabildi. Bununla birlikte, bu şeylere dikkat çekiyorum çünkü boğuştuğunuz durumu anlamak için ek fırsatlar sunuyorlar ve kodunuzun hikayenizin bazı bölümleriyle eşleştiğini fark etmemiş olabilirsiniz, ancak diğerleri ile değil.


Kodum hakkında bu kadar dikkatli düşünceleriniz için teşekkür ederim. Ampirik verilerle çalışan biri olarak, sahte veri oluşturma konusunda hiçbir uzmanlığım olmadığını söylemekten gurur duyuyorum ve burada tanımladığınız eksikliklerde gösteriyor. Buna rağmen acemi anlayış seviyem de kendini ortaya çıkarabilir.
user20061

Teşekkürler gung, bu ekstra bilgi yararlı ve diğerleri (en azından bana) tüm durumu biraz daha iyi anlamak yardımcı olur. GLM yaklaşımını ele almak zor.
Christopher Poile
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.