Logit regresyonda etkileşimli terimleri kategorik değişkenlerle yorumlayabilme


25

Yanıt verenlerin dört gruba birine rastgele atandığı bir anket denemesine ait veriler var:

> summary(df$Group)
       Control     Treatment1     Treatment2     Treatment3 
            59             63             62             66 

Üç tedavi grubu, uygulanan uyaranlara göre biraz değişmekle birlikte, benim ilgilendiğim temel ayrım kontrol ve tedavi grupları arasındadır. Ben de bir kukla değişken tanımladım Control:

> summary(df$Control)
     TRUE FALSE 
       59   191 

Ankette, katılımcılardan (diğer şeylerin yanı sıra) tercih ettikleri iki şeyden birini seçmeleri istendi:

> summary(df$Prefer)
      A   B  NA's 
    152  93   5 

Ardından, tedavi gruplarının belirlediği bazı uyaranları aldıktan sonra (ve kontrol grubundalarsa yok), katılımcılardan aynı iki şey arasında seçim yapmaları istendi:

> summary(df$Choice)
  A    B 
149  101 

Üç tedavi grubundan birinin olmasının, bu son soruda cevap verenlerin seçimini etkileyip etkilemediğini bilmek istiyorum. Hipotezim bir tedavi almış katılımcıların seçim olasılığı daha yüksektir olmasıdır Adaha B.

Kategorik verilerle çalıştığım göz önüne alındığında, bir logit regresyon kullanmaya karar verdim (eğer yanlış olduğunu düşünüyorsanız çekinmeyin). Katılımcıların rastgele atanması nedeniyle, diğer değişkenleri (örneğin demografik bilgileri) kontrol etmek zorunda olmamam gerektiği izlenimindeyim, bu yüzden bu soru için bunları dışarıda bıraktım. İlk modelim sadece şuydu:

> x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit"))
> summary(x0)

Call:
glm(formula = Choice ~ Control + Prefer, family = binomial(link = "logit"), 
    data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.8366  -0.5850  -0.5850   0.7663   1.9235  

Coefficients:
                    Estimate Std. Error z value Pr(>|z|)    
(Intercept)           1.4819     0.3829   3.871 0.000109 ***
ControlFALSE         -0.4068     0.3760  -1.082 0.279224    
PreferA              -2.7538     0.3269  -8.424  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 328.95  on 244  degrees of freedom
Residual deviance: 239.69  on 242  degrees of freedom
  (5 observations deleted due to missingness)
AIC: 245.69

Number of Fisher Scoring iterations: 4

Kesişmenin istatistiksel olarak anlamlı olmasının yorumlanabilir anlam taşıyan bir şey olmadığı izlenimi altındayım. Belki de şu şekilde bir etkileşim terimini içermem gerektiğini düşündüm:

> x1 <- glm(Choice ~ Control + Prefer + Control:Prefer, data=df, family=binomial(link="logit"))
> summary(x1)

Call:
glm(formula = Product ~ Control + Prefer + Control:Prefer, family = binomial(link = "logit"), 
    data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.5211  -0.6424  -0.5003   0.8519   2.0688  

Coefficients:
                                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)                         3.135      1.021   3.070  0.00214 ** 
ControlFALSE                       -2.309      1.054  -2.190  0.02853 *  
PreferA                            -5.150      1.152  -4.472 7.75e-06 ***
ControlFALSE:PreferA                2.850      1.204   2.367  0.01795 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 328.95  on 244  degrees of freedom
Residual deviance: 231.27  on 241  degrees of freedom
  (5 observations deleted due to missingness)
AIC: 239.27

Number of Fisher Scoring iterations: 5

Şimdi bir tedavi grubundaki gibi cevap verenlerin statüsü beklenen etkiye sahip. Bu geçerli bir adımlar seti miydi? Etkileşim terimini nasıl yorumlayabilirim ControlFALSE:PreferA? Diğer katsayılar hala kütük oranlarıyla mı?


Yanıtlar:


31

Biri A ve 0'ı tercih ettiğinde Tercih A'nın = 1 olduğunu ve işlendiğinde ControlFALSE = 1'in, kontrol sırasında 0 olduğunu kabul ediyorum.

Bir kişi daha önce yapmadığında ve bir tedavi almadığında A'yı tercih etme şansı (ControlFALSE = 0 ve PreferA = 0) , yani her kişi için A'yı tercih eden 23 kişi var. B'yi tercih ediyor. Yani A çok popüler.exp(3,135)=23

İşlem uygulayıcının etkisi, daha önce A'yı tercih etmemiş bir kişiye atıfta bulunur (PreferA = 0). Bu durumda temel oran , tedaviye tabi tutulduğunda, veya faktör oranında azalır . Bu nedenle, daha önce A tedavisi görmüş ve A'yı tercih A( 1 - 0,099 ) x 100 % = - 90.1 % 0,099 * 23 = 2.3exp(-2,309)=0,099(1-0,099)x100%=-90.1%0,099*23=2.3 , bu nedenle 2.3'ü B'yi tercih eden her kişi için A'yı tercih edenler var. B’den daha az, ancak tedavi edilmemiş / temel grupta olduğundan daha az.

A'yı tercih etmenin etkisi, daha önce kontrol sahibi olan bir kişiyi ifade eder (ControlFALSE = 0). Bu durumda, taban çizgisi olasılıkları, daha önce biri A'yı tercih ettiğinde veya oranında azalır . (Yani daha önce A'yı tercih edenler şimdi bunu yapması çok daha az muhtemeldir. Bu mantıklı mı?)- % 99,40,006-99.4%

Etkileşim etkisi, daha önce A'yı tercih edenler ve yapmayanlar için tedavinin etkisini karşılaştırır. Eğer bir kişi daha önce A'yı tercih ederse (PreferA = 1), o zaman tedavi şansı bir faktör artar . Bu nedenle, daha önce A'yı tercih edenler için tedavinin oran oranı . Alternatif olarak, daha önce A'yı tercih edenler için tedavinin bu oran oranı olarak hesaplanabilir .17.3 x .099 = 1.71 exp ( 2.850 - 2.309 )exp(2,850)=17.317.3x0,099=1.71exp(2,850-2,309)

Öyleyse üstelleştirilmiş sabit size temel oranları verir , temel etkilerin üstelleştirilmiş katsayıları , diğer değişken 0'a eşit olduğunda olasılık oranlarını verir ve etkileşimli terimlerin yükseltilmiş katsayısı , oran oranlarındaki değişime göre oranı size söyler .


Teşekkürler Maarten, bu diğer ilgili soruma cevabınız olduğu gibi çok yardımcı oldu. Yine de bir noktada biraz açıklama yapmak isterim. Diğer soruma değindiğim gibi ControlFALSE, ilk modelde yüksek bir p değeri ve ikinci modelde oldukça düşük bir değer olması nedeniyle burada yaptığımın istatistiksel geçerliliği konusunda endişeliyim . Cevabımı diğer soruma bu özel duruma uygulayarak, bunun Controlbir grup üzerinde olumsuz, diğerini Preferolumlu yönde etkilemesi durumunda olabileceğini söylemiştiniz .
Pygmalion

(alan bitti) Bu yorum burada bir anlam ifade ediyor mu? Doğrudan nasıl uygulanacağından tam olarak emin değilim.
Pigme

Etkisi ControlFALSEilk modelinde için tedavi etkisi olan hem ikinci modelde etkisi ise, bu daha önce tercih edilen A ve olmayanlar şeklinde sadece daha önce A tercih etmeyen kişilere yönelik tedavinin etkisi. Bunun iyi olup olmadığı istatistiksel bir soru değil, bunun anlamlı olup olmadığı.
Maarten Buis

@MaartenBuis Harika bir açıklama. Eşdeğer hesaplamaları tahminlerin güven aralıkları için nasıl yaparsınız? Yorumlama kolaylığı için, genellikle lojistik modellerini tabakalı ettik (örneğin, bu örnekte, önceki tercihen) ve anlamlı fark için bir "istatistiksel test olarak etkileşim terimini kullanmak ya da bu kabul edilebilir.?
bobmcpop

2

Bu makaleyi ayrıca lojistik regresyondaki etkileşimi yorumlamakta yardımcı buldum:

Chen, JJ (2003). Karmaşık bilgilerin iletilmesi: çoklu lojistik regresyon analizinde istatistiksel etkileşimin yorumlanması . Amerikan halk sağlığı dergisi , 93 (9), 1376-1377.


4
Tam bir referans verdim (başlık, yazar, tarih, dergi vb.). Bu, bağlantı adresi değişirse katkının faydalı olacağı anlamına gelir. Ancak içeriğini özetlemek için üzerinde genişleyebilir misiniz? Aksi halde, bu bir cevaptan çok bir yorumdur - cevaplarımızın kendi içinde yer almasını tercih ederiz, bu nedenle "link-rot" a karşı dirençlidirler. Alternatif olarak bunu sizin için bir yoruma dönüştürebiliriz.
Silverfish,

Teşekkürler. NCBI ile bağlantı kurdum, bu yüzden iyi olacağını düşündüm. Değişikliklere katılıyorum. Teşekkürler!
deepseas

0

Lojistik regresyondaki etkileşimleri yorumlamaya çalışırken kendi tercihim, kategorik değişkenlerin her bir birleşimi için öngörülen olasılıklara bakmaktır. Senin durumunda, bu sadece 4 olasılık olurdu:

  1. A'yı tercih et, doğru kontrol et
  2. A'yı tercih et, yanlış kontrol et
  3. B'yi tercih et, doğru kontrol et
  4. B'yi tercih et, yanlış kontrol et

Sürekli değişkenlerim olduğunda, genellikle medyan, 1 ve 3 çeyreklerde öngörülen değere bakarım.

Her ne kadar doğrudan bu katsayıların yorumlanmasına ulaşmasa da, bunun sık sık bana (ve müşterilerime) neler olduğunu net bir şekilde görmesini sağladığını buldum.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.