Lojistik regresyon ile Kesirli yanıt regresyonu arasındaki fark nedir?


13

Bildiğim kadarıyla, lojistik model ile kesirli yanıt modeli (frm) arasındaki fark, frm'nin [0,1], ancak lojistiğin {0, 1} olduğu bağımlı değişkenin (Y) olmasıdır. Ayrıca frm, parametrelerini belirlemek için yarı olabilirlik tahmincisini kullanır.

Normalde, glmlojistik modelleri elde etmek için kullanabiliriz glm(y ~ x1+x2, data = dat, family = binomial(logit)).

Frm için, değiştirmek family = binomial(logit)için family = quasibinomial(logit).

family = binomial(logit)Aynı tahmini değerleri verdiği için frm parametresini elde etmek için de kullanabileceğimizi fark ettim . Aşağıdaki örneğe bakın

library(foreign)
mydata <- read.dta("k401.dta")


glm.bin <- glm(prate ~ mrate + age + sole + totemp, data = mydata
,family = binomial('logit'))
summary(glm.bin)

dönüş,

Call:
glm(formula = prate ~ mrate + age + sole + totemp, family = binomial("logit"), 
    data = mydata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-3.1214  -0.1979   0.2059   0.4486   0.9146  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)    
(Intercept)  1.074e+00  8.869e-02  12.110  < 2e-16 ***
mrate        5.734e-01  9.011e-02   6.364 1.97e-10 ***
age          3.089e-02  5.832e-03   5.297 1.17e-07 ***
sole         3.636e-01  9.491e-02   3.831 0.000128 ***
totemp      -5.780e-06  2.207e-06  -2.619 0.008814 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 1166.6  on 4733  degrees of freedom
Residual deviance: 1023.7  on 4729  degrees of freedom
AIC: 1997.6

Number of Fisher Scoring iterations: 6

Ve için family = quasibinomial('logit'),

glm.quasi <- glm(prate ~ mrate + age + sole + totemp, data = mydata
,family = quasibinomial('logit'))
summary(glm.quasi)

dönüş,

Call:
glm(formula = prate ~ mrate + age + sole + totemp, family = quasibinomial("logit"), 
    data = mydata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-3.1214  -0.1979   0.2059   0.4486   0.9146  

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.074e+00  4.788e-02  22.435  < 2e-16 ***
mrate        5.734e-01  4.864e-02  11.789  < 2e-16 ***
age          3.089e-02  3.148e-03   9.814  < 2e-16 ***
sole         3.636e-01  5.123e-02   7.097 1.46e-12 ***
totemp      -5.780e-06  1.191e-06  -4.852 1.26e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for quasibinomial family taken to be 0.2913876)

    Null deviance: 1166.6  on 4733  degrees of freedom
Residual deviance: 1023.7  on 4729  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 6

Her ikisinden de tahmin edilen Beta familyaynıdır, ancak fark SE değeridir. Ancak, doğru SE'yi elde etmek için library(sandwich)bu yazıda olduğu gibi kullanmalıyız .

Şimdi, sorularım:

  1. Bu iki kod arasındaki fark nedir?
  2. FRM güçlü SE elde etmek üzere mi?

Anlayışım doğru değilse, lütfen bazı önerilerde bulunun.

Yanıtlar:


11

Sorunuz: Bu iki kod arasındaki fark nedir?

Bir bakış ?glmdiyor See family for details of family functionsve bir göz ?familyaşağıdaki açıklamayı ortaya koymaktadır:

Quasibinomial ve quasipoisson familyaları binom ve poisson familyalarından sadece dispersiyon parametresinin bire sabitlenmemesi nedeniyle farklı olduğundan aşırı dispersiyonu modelleyebilirler.

Bu, çıktılarınızda gördüğünüz şeydir. Bu iki model / kod arasındaki farktır.

Sorunuz şuysa: lojistik regresyon ile kesirli yanıt regresyonu arasındaki fark nedir?

Doğru olarak tanımladığınız gibi, bağımlı değişkenleriniz 0 veya 1 ise model lojistik bir modeldir. Papke ve Wooldridge , bu formun bir GLM'sini kesirler için ve parametrelerin tahmini için de kullanabileceğinizi göstermiştir, ancak sağlam standart hataları hesaplar. Bu, lojistik regresyon için gerekli değildir ve aslında bazı insanlar probit / logit modellerinde sağlam standart hataları hesaplamamanız gerektiğini düşünmektedir. Bu farklı bir tartışma olmasına rağmen.

Teorik temel, Gourieroux, Monfort ve Trognon'un ünlü bir makalesinden geliyorDoğrusal üstel aileye ait olma olasılığını en üst düzeye çıkararak elde edilen (bazı düzenlilik koşulları altında vb.) maksimum olabilirlik parametrelerinin, doğrusal üstel ailede başka herhangi bir olasılığa ait parametreler için tutarlı tahminler olduğunu gösterirler. Dolayısıyla, bir anlamda, tam olarak doğru olmasa da, burada lojistik dağıtımı kullanıyoruz, ancak parametreler elde etmek istediğimiz parametreler için hala tutarlı. Dolayısıyla, sorunuz, bağımlı değişkenin doğasını değiştirmemiz dışında, hem lojistik hem de kesirli yanıt modellerini tahmin etmek için aynı olasılık işlevini kullandığımız gözleminden kaynaklanıyorsa, bu sezgidir.


frm performansını nasıl ölçebiliriz? MSE'yi lineer regresyon gibi kullanabilir miyiz?
acemi

1
Bu çok farklı bir soru. Lütfen yeni bir tane olarak gönderin.
coffeinjunky
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.