Lojistik ve logit-lineer regresyon ile tahmin edilen katsayılar ne zaman farklılık gösterir?

Sürekli oranları modellerken (örn. Anket kadranlarındaki orantılı bitki örtüsü, veya bir aktiviteye katılan zamanın oranı), lojistik regresyon uygunsuz olarak kabul edilir (örn. Warton & Hui (2011) Arksin asindir: ekolojideki oranların analizi ). Aksine, orantıların logit-transforme edilmesinden sonra OLS regresyonu veya belki de beta regresyonu daha uygundur.

Hangi koşullar altında log ve lineer regresyon ve lojistik regresyon katsayıları R lmve ve kullanırken kullanılır glm?

pHam verilerimiz olduğunu varsayabileceğimiz aşağıdaki simüle edilmiş veri kümesini alın (yani, yerine temsil etmek yerine sürekli oranlar ): ${n_{successes}\over n_{trials}}$

set.seed(1)
x <- rnorm(1000)
a <- runif(1)
b <- runif(1)
logit.p <- a + b*x + rnorm(1000, 0, 0.2)
p <- plogis(logit.p)

plot(p ~ x, ylim=c(0, 1))

resim açıklamasını buraya girin

Logit-doğrusal bir model yerleştirerek şunları elde ederiz:

summary(lm(logit.p ~ x))
## 
## Call:
## lm(formula = logit.p ~ x)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.64702 -0.13747 -0.00345  0.15077  0.73148 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 0.868148   0.006579   131.9   <2e-16 ***
## x           0.967129   0.006360   152.1   <2e-16 ***
## ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
## 
## Residual standard error: 0.208 on 998 degrees of freedom
## Multiple R-squared:  0.9586, Adjusted R-squared:  0.9586 
## F-statistic: 2.312e+04 on 1 and 998 DF,  p-value: < 2.2e-16

Lojistik regresyonun getirileri:

summary(glm(p ~ x, family=binomial))
## 
## Call:
## glm(formula = p ~ x, family = binomial)
## 
## Deviance Residuals: 
##      Min        1Q    Median        3Q       Max  
## -0.32099  -0.05475   0.00066   0.05948   0.36307  
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  0.86242    0.07684   11.22   <2e-16 ***
## x            0.96128    0.08395   11.45   <2e-16 ***
## ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 176.1082  on 999  degrees of freedom
## Residual deviance:   7.9899  on 998  degrees of freedom
## AIC: 701.71
## 
## Number of Fisher Scoring iterations: 5
## 
## Warning message:
## In eval(expr, envir, enclos) : non-integer #successes in a binomial glm!

Lojistik regresyon katsayısı tahminleri, logit-lineer modelin tahminlerine göre daima tarafsız mı olacak?

r regression logistic

— jbaums
kaynak

Teorik bir ayrım göz önünde bulundurun: oranlara uygulanan bir binom modeli ile, her bir oranın arkasındaki denemelerin bağımsız olduğunu, yani oranın arkasında 0.1, bir başarı sağlayan 10 bağımsız denemenin "olduğunu" varsayıyorsunuz . Doğrusal model için, 0.1basitçe bir değer, bazı keyfi bir ölçüdür.

— ttnphns

Bir binom modelini OP'nin yaptığı şekilde oranlara uygulamanın ne kadar anlamlı olduğu konusunda biraz şüpheliyim. Sonuçta family=binomial, bağımlı değişkenin orantıları değil binom sayılarını temsil ettiğini ima eder. Ve bunun "her on kişiden biri" ve "her on kişiden biri" gibi glmolmadığını nasıl anlarsınız 0.1? Oranın kendisi farklı olmasa da, bunun standart hatanın nasıl hesaplandığı konusunda önemli etkileri vardır.

— Wolfgang

@Wolfgang - Lojistik regresyon ile bu tür sürekli oranların modellenmesinin uygun olmadığını (ve benim yazımda bahsettiğimi) anlıyorum. Katsayıların nokta tahminlerinin farklı olup olmadığı / ne zaman / nasıl olduğu ile daha çok ilgileniyordum.

— jbaums

@ Wolfgang, haklısın, ama uygulamaya bağlı. Bazı programlar tabanların yerine DV ve 1'ler olarak oranların girilmesine izin verirken, veri seti gerçek bazlar tarafından ağırlıklandırılır. Yani sayıları değil, oranları analiz ediyormuşsunuz gibi görünüyor.

— ttnphns

@ttnphns Benzer şekilde, R'de DV olarak oranlar girilebilir ve arg'e çok sayıda deneme içeren bir vektör sağlanabilir weights(gerçi bu verileri kasıtlı olarak yanlış analiz ettiğim yazıma girmeye çalıştığım şey değildir).

— jbaums

Yanıtlar:

Belki de bu "ters" tarzda cevaplanabilir - yani ne zaman aynılar?

Artık lojistik regresyonda kullanılan IRLS algoritması burada bir fikir veriyor. Yakınsamada model katsayılarını şu şekilde ifade edebilirsiniz:

{\hat{β}}_{l o g i s t i c} = {(X^{T} W X)}^{- 1} X^{T} W z

$\hat {\beta}_{logistic}=\left (X^TWX\right)^{-1} X^TWz$

burada , terimine sahip diyagonal bir ağırlık matrisidir ve , . Not bu lojistik regresyon yapan çok benzer görünmektedir ağırlıklı miktarının bir "logit tip" ile en küçük kareler. Tüm ilişkiler lojistik regresyon içinde örtülü olduğu Not (örn bağlıdır bağlıdır ). $W$ $W_{ii}=n_ip_i (1-p_i)$ $z$ $z_i=x_i^T\hat {\beta}_{logistic} +\frac {y_i -n_ip_i}{n_ip_i (1-p_i)}$ $var (z_i -x_i^T\hat {\beta})=W_{ii}^{-1}$ $z$ $\beta$ $z$

Bu yüzden farkın ağırlıklı olarak ağırlıklı en küçük kareler (lojistik) ile ağırlıksız en küçük kareler (loglardaki ols) kullanmasında olduğunu öneririm. Eğer logits ağırlıklı olursa tarafından (burada "olaylar" ın sayısına ve bir içinde "denemeler" sayısı) sana ulaşabilir çağrı daha benzer sonuçlar. $\log (y)-\log (n-y)$ $y (1-y/n)$ $y$ $n$ lm ()

— probabilityislogic
kaynak

Etkileyici. Verilen cümle verilerini kullanarak son cümlenizi R koduyla gösterebilir misiniz? Teşekkürler!

— 15:36

Yanılıyorsam lütfen bunu belirtmekten çekinmeyin.

İlk olarak, diyorum ki, ikinci uyumda glmyanlış bir şekilde çağırıyorsunuz ! Lojistik regresyona uymak için glm, yanıt (ikili) kategorik değişken olmalıdır, ancak psayısal bir değişken kullanırsınız! warningSöylemeliyim ki , kullanıcılar hatalarını bildirmek için çok nazik ...

Ve, beklediğiniz gibi, COINCIDENCE tarafından iki uyum için benzer katsayı tahminleri elde edersiniz. Eğer değiştirirseniz logit.p <- a + b*x + rnorm(1000, 0, 0.2)ile logit.p <- a + b*x + rnorm(1000, 0, 0.7), yani hata teriminin varyansı değişen 0.2için 0.7ikinci bir uyum (her ne kadar, daha sonra iki uyan sonuçları büyük ölçüde farklı olacaktır glm) hiç bir anlamı yoktur ...

Lojistik regresyon (ikili) sınıflandırma için kullanılır, bu nedenle yukarıda belirtildiği gibi kategorik yanıtınız olmalıdır. Örneğin, yanıtın gözlemleri, verilerinizde olduğu gibi bir dizi "olasılık (frekans)" yerine bir dizi "başarı" veya "başarısızlık" olmalıdır. Belirli bir kategorik veri kümesi için, "yanıt = başarı" veya "yanıt = hata" için bir seri yerine yalnızca bir genel frekans hesaplayabilirsiniz. Ürettiğiniz verilerde hiçbir kategorik değişken yoktur, bu nedenle lojistik regresyon uygulamak imkansızdır. Şimdi, benzer bir görünüme sahip olmalarına rağmen, logit-lineer regresyonun (dediğiniz gibi), dönüştürülmüş yanıtı (tıpkı sqr veya sqrt dönüşümü gibi) kullanarak sadece sıradan bir doğrusal REGRESSION problemi (yani, yanıt sayısal bir değişkendir) olduğunu,

Tipik olarak doğrusal regresyon, regresyon problemi için kare kaybını en aza indiren Sıradan En Küçük Kareler (OLS) aracılığıyla takılır; lojistik regresyon, sınıflandırma problemi için log kaybını en aza indiren Maksimum Olabilirlik Tahmini (MLE) ile sağlanır. Kayıp fonksiyonları, Deva Ramanan, kayıp fonksiyonları ile ilgili bir referans . İlk örnekte, pyanıt olarak kabul edilir ve OLS aracılığıyla sıradan bir doğrusal regresyon modeline uyarsınız; ikinci örnekte, Rlojistik regresyon modelini family=binomialşu Rşekilde taktığınızı söylüyorsunuz , bu yüzden modeli MLE'ye uydurun. Gördüğünüz gibi, ilk modelde, OLS'un lineer regresyona uygun klasik çıktıları olan t-testi ve F-testi elde edersiniz. İkinci modelde, katsayı anlamlılık testi zyerinetMLE'nin lojistik regresyona uyumunun klasik çıktısıdır.

— JellicleCat
kaynak

Güzel soru (+1) ve güzel cevap (+1). Yeni bir şey öğrendim.

— Aleksandr Blekh

Katılıyorum. Bununla birlikte, bu logistic regression is a CLASSIFICATION problemsadece iyi sınıflayabildiği sürece değerinde olduğu şeklinde yanlış yorumlanabilir. Bunu düşünmek yanlış olur, çünkü teorik olarak "optimal" bir model ve olasılıkları nasıl modellediğine göre bazen çok iyi olmayan bir modelden daha kötü olarak sınıflandırılabilir .

— ttnphns

@ttnphns Yorumunuz için teşekkürler! Yanıtın kategorik olması durumunda sınıflandırma sorunu olarak adlandırmanın bir kural olduğunu düşünüyorum. Modelin iyi performans gösterip göstermemesi önemlidir, ancak belki de adlandırmayı etkilemez.

— JellicleCat

Teşekkürler @JellicleCat - Bu tür oran verilerinin lojistik regresyon için uygun olmadığının farkındayım, ancak katsayı tahminlerinin logit dönüşümü oranlarıyla OLS'den farklı olacağı koşulları merak ediyordum. Örneğiniz için teşekkürler - artan varyans ile katsayı tahminlerinin farklı olduğu açıktır.

— jbaums