Yanıt verenlerin dört gruba birine rastgele atandığı bir anket denemesine ait veriler var:
> summary(df$Group)
Control Treatment1 Treatment2 Treatment3
59 63 62 66
Üç tedavi grubu, uygulanan uyaranlara göre biraz değişmekle birlikte, benim ilgilendiğim temel ayrım kontrol ve tedavi grupları arasındadır. Ben de bir kukla değişken tanımladım Control
:
> summary(df$Control)
TRUE FALSE
59 191
Ankette, katılımcılardan (diğer şeylerin yanı sıra) tercih ettikleri iki şeyden birini seçmeleri istendi:
> summary(df$Prefer)
A B NA's
152 93 5
Ardından, tedavi gruplarının belirlediği bazı uyaranları aldıktan sonra (ve kontrol grubundalarsa yok), katılımcılardan aynı iki şey arasında seçim yapmaları istendi:
> summary(df$Choice)
A B
149 101
Üç tedavi grubundan birinin olmasının, bu son soruda cevap verenlerin seçimini etkileyip etkilemediğini bilmek istiyorum. Hipotezim bir tedavi almış katılımcıların seçim olasılığı daha yüksektir olmasıdır A
daha B
.
Kategorik verilerle çalıştığım göz önüne alındığında, bir logit regresyon kullanmaya karar verdim (eğer yanlış olduğunu düşünüyorsanız çekinmeyin). Katılımcıların rastgele atanması nedeniyle, diğer değişkenleri (örneğin demografik bilgileri) kontrol etmek zorunda olmamam gerektiği izlenimindeyim, bu yüzden bu soru için bunları dışarıda bıraktım. İlk modelim sadece şuydu:
> x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit"))
> summary(x0)
Call:
glm(formula = Choice ~ Control + Prefer, family = binomial(link = "logit"),
data = df)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.8366 -0.5850 -0.5850 0.7663 1.9235
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.4819 0.3829 3.871 0.000109 ***
ControlFALSE -0.4068 0.3760 -1.082 0.279224
PreferA -2.7538 0.3269 -8.424 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 328.95 on 244 degrees of freedom
Residual deviance: 239.69 on 242 degrees of freedom
(5 observations deleted due to missingness)
AIC: 245.69
Number of Fisher Scoring iterations: 4
Kesişmenin istatistiksel olarak anlamlı olmasının yorumlanabilir anlam taşıyan bir şey olmadığı izlenimi altındayım. Belki de şu şekilde bir etkileşim terimini içermem gerektiğini düşündüm:
> x1 <- glm(Choice ~ Control + Prefer + Control:Prefer, data=df, family=binomial(link="logit"))
> summary(x1)
Call:
glm(formula = Product ~ Control + Prefer + Control:Prefer, family = binomial(link = "logit"),
data = df)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.5211 -0.6424 -0.5003 0.8519 2.0688
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 3.135 1.021 3.070 0.00214 **
ControlFALSE -2.309 1.054 -2.190 0.02853 *
PreferA -5.150 1.152 -4.472 7.75e-06 ***
ControlFALSE:PreferA 2.850 1.204 2.367 0.01795 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 328.95 on 244 degrees of freedom
Residual deviance: 231.27 on 241 degrees of freedom
(5 observations deleted due to missingness)
AIC: 239.27
Number of Fisher Scoring iterations: 5
Şimdi bir tedavi grubundaki gibi cevap verenlerin statüsü beklenen etkiye sahip. Bu geçerli bir adımlar seti miydi? Etkileşim terimini nasıl yorumlayabilirim ControlFALSE:PreferA
? Diğer katsayılar hala kütük oranlarıyla mı?