Sürekli oranları modellerken (örn. Anket kadranlarındaki orantılı bitki örtüsü, veya bir aktiviteye katılan zamanın oranı), lojistik regresyon uygunsuz olarak kabul edilir (örn. Warton & Hui (2011) Arksin asindir: ekolojideki oranların analizi ). Aksine, orantıların logit-transforme edilmesinden sonra OLS regresyonu veya belki de beta regresyonu daha uygundur.
Hangi koşullar altında log ve lineer regresyon ve lojistik regresyon katsayıları R lm
ve ve kullanırken kullanılır glm
?
p
Ham verilerimiz olduğunu varsayabileceğimiz aşağıdaki simüle edilmiş veri kümesini alın (yani, yerine temsil etmek yerine sürekli oranlar ):
set.seed(1)
x <- rnorm(1000)
a <- runif(1)
b <- runif(1)
logit.p <- a + b*x + rnorm(1000, 0, 0.2)
p <- plogis(logit.p)
plot(p ~ x, ylim=c(0, 1))
Logit-doğrusal bir model yerleştirerek şunları elde ederiz:
summary(lm(logit.p ~ x))
##
## Call:
## lm(formula = logit.p ~ x)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.64702 -0.13747 -0.00345 0.15077 0.73148
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.868148 0.006579 131.9 <2e-16 ***
## x 0.967129 0.006360 152.1 <2e-16 ***
## ---
## Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
##
## Residual standard error: 0.208 on 998 degrees of freedom
## Multiple R-squared: 0.9586, Adjusted R-squared: 0.9586
## F-statistic: 2.312e+04 on 1 and 998 DF, p-value: < 2.2e-16
Lojistik regresyonun getirileri:
summary(glm(p ~ x, family=binomial))
##
## Call:
## glm(formula = p ~ x, family = binomial)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -0.32099 -0.05475 0.00066 0.05948 0.36307
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 0.86242 0.07684 11.22 <2e-16 ***
## x 0.96128 0.08395 11.45 <2e-16 ***
## ---
## Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 176.1082 on 999 degrees of freedom
## Residual deviance: 7.9899 on 998 degrees of freedom
## AIC: 701.71
##
## Number of Fisher Scoring iterations: 5
##
## Warning message:
## In eval(expr, envir, enclos) : non-integer #successes in a binomial glm!
Lojistik regresyon katsayısı tahminleri, logit-lineer modelin tahminlerine göre daima tarafsız mı olacak?
family=binomial
, bağımlı değişkenin orantıları değil binom sayılarını temsil ettiğini ima eder. Ve bunun "her on kişiden biri" ve "her on kişiden biri" gibi glm
olmadığını nasıl anlarsınız 0.1
? Oranın kendisi farklı olmasa da, bunun standart hatanın nasıl hesaplandığı konusunda önemli etkileri vardır.
weights
(gerçi bu verileri kasıtlı olarak yanlış analiz ettiğim yazıma girmeye çalıştığım şey değildir).
0.1
, bir başarı sağlayan 10 bağımsız denemenin "olduğunu" varsayıyorsunuz . Doğrusal model için,0.1
basitçe bir değer, bazı keyfi bir ölçüdür.