Ordinal lojistik regresyonun yorumu


17

Bu sıralı lojistik regresyon R: koştu:

mtcars_ordinal <- polr(as.factor(carb) ~ mpg, mtcars)

Modelin bu özetini aldım:

summary(mtcars_ordinal)

Re-fitting to get Hessian

Call:
polr(formula = as.factor(carb) ~ mpg, data = mtcars)

Coefficients:
      Value Std. Error t value
mpg -0.2335    0.06855  -3.406

Intercepts:
    Value   Std. Error t value
1|2 -6.4706  1.6443    -3.9352
2|3 -4.4158  1.3634    -3.2388
3|4 -3.8508  1.3087    -2.9425
4|6 -1.2829  1.3254    -0.9679
6|8 -0.5544  1.5018    -0.3692

Residual Deviance: 81.36633 
AIC: 93.36633 

Bunun için katsayının günlük oranlarını alabilirim mpg:

exp(coef(mtcars_ordinal))
 mpg 
0.7917679 

Ve eşiklerin günlük oranları şöyle:

exp(mtcars_ordinal$zeta)

       1|2         2|3         3|4         4|6         6|8 
0.001548286 0.012084834 0.021262900 0.277242397 0.574406353 

Birisi bana bu model hakkındaki yorumumun doğru olup olmadığını söyleyebilir mi?

Olarak mpgbir birim artar, kategori 1 hareket oran carbdiğer 5 kategorilerden herhangi birine, -0.23 azalır. Eğer log oranları 0.0015 eşiğini geçerse, o zaman bir araba için öngörülen değer kategorisi 2 olacaktır carb. Eğer günlük oranları 0.0121 eşiğini aşarsa, bir araba için tahmini değer kategori 3 carbve benzeri olacaktır.

Yanıtlar:


10

Oranları ve günlük oranlarını mükemmel bir şekilde karıştırdınız. Log olasılıkları katsayılardır; oranlar üssel katsayılardır. Ayrıca, olasılık yorumu tam tersine gidiyor . (Ekonometri ile sınırlı bağımlı değişkenleri düşünerek büyüdüm ve ordinal regresyonun olasılık yorumu ... uhm ... bana eğlendirici.) Yani ilk ifadeniz, " mpg Bir birim arttıkça, oranlar diğer 5 kategoriden 1. kategoriyi gözlemleme carb oranı% 21 arttı. "

Eşiklerin yorumlanması ile ilgili olarak, modal tahminin ne olduğunu söyleyebilmek için tüm tahmini eğrileri çizmeniz gerekir:

mpg   <- seq(from=5, to=40, by=1)
xbeta <- mpg*(-0.2335)
logistic_cdf <- function(x) {
  return( 1/(1+exp(-x) ) )
}

p1 <- logistic_cdf( -6.4706 - xbeta )
p2 <- logistic_cdf( -4.4158 - xbeta ) - logistic_cdf( -6.4706 - xbeta )
p3 <- logistic_cdf( -3.8508 - xbeta ) - logistic_cdf( -4.4158 - xbeta )
p4 <- logistic_cdf( -1.2829 - xbeta ) - logistic_cdf( -3.8508 - xbeta )
p6 <- logistic_cdf( -0.5544 - xbeta ) - logistic_cdf( -1.2829 - xbeta )
p8 <- 1 - logistic_cdf( -0.5544 - xbeta )

plot(mpg, p1, type='l', ylab='Prob')
  lines(mpg, p2, col='red')
  lines(mpg, p3, col='blue')
  lines(mpg, p4, col='green')
  lines(mpg, p6, col='purple')
  lines(mpg, p8, col='brown')
  legend("topleft", lty=1, col=c("black", "red", "blue", "green", "purple", "brown"), 
         legend=c("carb 1", "carb 2", "carb 3", "carb 4", "carb 5", "carb 6"))

resim açıklamasını buraya girin

3. kategori için mavi eğri hiç alınmadı ve 6. kategori için mor eğri de alınmadı. Yani eğer bir şey varsa bunu değerleri için söyleyebilirimmpg , 27'nin üzerindeki varsa, en olası kategori 1'dir; 18 ve 27 arasında, kategori 2; 4 ile 18 arasında, kategori 4; ve 4, kategori 8 altında. (Ne okuyorsun merak ediyorum - ticari kamyonlar? Bugünlerde çoğu binek otomobil mpg> 25 olmalıdır). Kavşak noktalarını daha doğru belirlemeye çalışmak isteyebilirsiniz.

Ayrıca 1, 2, 3, 4, sonra 6 (5 atlama), sonra 8 (7 atlama) gibi garip kategorilere sahip olduğunuzu fark ettim. 5 ve 7 tasarım gereği eksikse, sorun değil. Bunlar carbsadece içine girmeyen geçerli kategorilerse , bu iyi değildir.


"Karbonhidrat 1 kategorisinden diğer 5 kategoriden herhangi birine geçiş" i nasıl kullandığımı not edin. Bu yanlış mı? "Mpg bir birim arttıkça, karbonhidrat kategorisinin 1. kategorisini ve diğer 5 kategoriyi gözlemleme olasılığı% 21 artmaktadır." Bu, mpg yaklaşık 5 birim artarsa, kategori 1'i gözlemleme şansının% 100 olacağı anlamına gelir. Ancak mpg 5 birim artarsa, kategori 1'e değil, kategori 8'i gözlemleme şansının daha yüksek olması gerekir.
luciano

3
Figürü ekledim; Cevabınızın yorumlanmasını kolaylaştıracağından şüphelendim - umarım beğenirsiniz. (BTW ,? Mtcars belgeleri , verilerin Motor Trendleri 1974 sayısındaki test sonuçları olduğunu söylüyor .)
gung - Reinstate Monica

Birisi luciano'nun son sorusunu cevaplayabilir mi? Bunu çok ilginç buluyorum.
Erosennin

1
mpg23134515

1
polrModeli logit P(Y <= k | x) = zeta_k - eta@ StasK'nin yorumunun okunmaması gerektiği gibi tanımladığı gibi , "de mpg bir birim artış, kategorisini 1 'e bakacak oran carb diğer 5 kategori genel artış % 26 ( exp(-(-0.2335)) = 1.26)".
moremo

3

Sıralı logit modelinde, olasılıklar belirli bir eşiğin altındaki herhangi bir kategoride olma olasılığının oranı ile aynı eşiğin üzerindeki bir kategoride olma olasılığıdır (örneğin, üç kategoriyle: A veya B kategorisinde olma olasılığı vs C ve ayrıca A veya B veya C kategorisinde olma olasılığı).

Bu logit P(Y <= k | x) = zeta_k - eta, açıklamasında belirtildiği gibi modele yol açar polr(). Bu nedenle, oran oranları farklı kategoriler veya farklı regresörler için oluşturulabilir. İkincisi, daha yaygın olanı, aynı kategoriler için oranları karşılaştırır, ancak farklı regresörler ve eşitler

Ödds(ybirk|xbir)Ödds(ybk|xb) = tecrübe(-(ηbir-ηb)).

Farklı kategoriler için olasılık oranı,

Ödds(ybenk|xben)Ödds(ybenm|xben) = tecrübe(ζk-ζm),

böylece oran regresörlerden bağımsızdır. Bu özellik, alternatif ad orantılı olasılık modeline yol açar .

Bu basit, ama belki de çok sezgisel olmayan bir örnekte, aşağıdakileri formüle edebilirsiniz: Regresördeki bir birim artış için, mpgkategori 1'i gözlemleme ve daha yüksek bir kategoriyi gözlemleme olasılığı (veya belirli bir eşiğin altındaki herhangi bir kategoriyi gözlemleme olasılığı) aynı eşiğin üzerindeki herhangi bir kategoriyi gözlemleyerek) 1,26 ile çarpılır veya% 26 artırılır ( exp(-(-0.233 - 0)) = 1.263). Farklı kategorilerin bir oran oranını formüle etmek istiyorsanız, örneğin, kategori 1 veya 2 kategorisinde olma olasılığına kıyasla yukarıdaki kategori 1 veya 2 kategorisinde olma olasılığına kıyasla yukarıdaki gibi herhangi bir kategoriye eşittir diyebilirsiniz exp((-6.470) - (-4.415)) = 0.128. Bu nedenle, ikinci yorum bu özel kurulumda çok yararlı değildir. Farklı kategoriler için bir oran oranının bir örneği, liseye gitme oranına kıyasla üniversiteye gitme olasılığı olabilir.

Son olarak, bir sonraki yüksek yanıt kategorisine ulaşmak için açıklayıcı bir değişkenin ne kadar değişmesi gerektiğiyle ilgilenebilirsiniz. Bunun için aralık uzunluğunu karşılaştırırsınız(ζk-ζk-1)uygun bir katsayıyla. Bu, yanıtı kategoriden taşımak için ilgili regresörünüzdeki değişikliğin ne kadar büyük olması gerektiği hakkında bir fikir verir.k daha yüksek bir kategoriye.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.