Birden fazla kategorik değişken olduğunda betaların yorumlanması


18

O kavramını regresyon katsayısı iki kategoriye ortalama farkıdır uç yorumlamak kategorik değişkeni 0 eşittir (veya referans grubu olduğu) zaman için ortalamasıdır. > 2 kategoride bile, her bir bu kategorinin ortalaması ile referans arasındaki farkı açıkladığını varsayabilirim . ββ^0β^

Ancak, çok değişkenli modele daha fazla değişken getirilirse ne olur? Şimdi, iki kategorik değişkenin referansı için bir anlam ifade etmesinin mantıklı olmadığı düşünüldüğünde, kesişme ne demektir? Örnek olarak, cinsiyet (M (ref) / F) ve ırk (beyaz (ref) / siyah) bir modelde olsaydı. Mı sadece beyaz erkeklerde ortalama? Kişi diğer olasılıkları nasıl yorumlar?β^0

Ayrı bir not olarak: kontrast ifadeleri efekt modifikasyonunu araştırmak için bir yöntem işlevi görür mü? Ya da sadece etkiyi ( ) farklı düzeylerde görmek için mi?β^


Bir terminolojik not olarak, "çok değişkenli", birden fazla tahmin değişkeni değil, birden çok cevap değişkeni anlamına gelir ( buraya bakınız ). Ayrıca, son sorunuzu takip etmiyorum.
gung - Monica'yı eski

Bu açıklama için teşekkürler. Dili doğru yapmak benim için önemlidir! Ben sadece her zaman sadece bir karşı kontrast olan referans değişken ayarlamak olabilir çünkü neden kontrast ifadeler hiç kullanıldığını anlayamıyorum varsayalım?
Renee

1
Sanırım modeli farklı referans seviyeleriyle yeniden monte etmeye devam edebilirsiniz. Bunun daha uygun olduğundan emin değilim. Kontrastlarla, test etmek için bir dizi dikey kontrast veya teorik olarak ima edilen bir kontrast (B & C kombinasyonuna karşı A ve B) belirleyebilirsiniz.
gung - Monica'yı eski

Yanıtlar:


19

k düzeylerine sahip tek bir kategorik değişken olduğunda betaların yorumlanması konusunda haklısınız . Birden kategorik değişkenler vardı (ve herhangi bir etkileşim terimi idi) ise, (kesişme β 0 ) referans seviyesini oluşturmaktadır grubun ortalama olan , her iki (tümü) kategorik değişkenler. Örnek senaryonuzu kullanarak etkileşimin olmadığı durumu dikkate alın, ardından betalar şunlardır: β^0

  • β^0: Beyaz erkek ortalama
  • β^Fembirle:farkıdişilerin ortalama ve erkeklerin ortalama arasında
  • β^Blbirck:farkkaralarının ortalama ve beyaz ortalama arasında

Bunu, çeşitli grup araçlarının nasıl hesaplanacağı açısından da düşünebiliriz:

x¯Whbente Mbirles=β^0x¯Whbente Fembirles=β^0+β^Fembirlex¯Blbirck Mbirles=β^0+β^Blbirckx¯Blbirck Fembirles=β^0+β^Fembirle+β^Blbirck

Bir etkileşim teriminiz olsaydı, siyah dişiler için denklemin sonuna eklenirdi. (Böyle bir etkileşim teriminin yorumu oldukça kıvrımlıdır, ancak burada geçiyorum: Etkileşim teriminin yorumu .)


Güncelleme : Puanlarımı netleştirmek için, kodlanmış bir hazır örneği ele alalım R.

d = data.frame(Sex  =factor(rep(c("Male","Female"),times=2), levels=c("Male","Female")),
               Race =factor(rep(c("White","Black"),each=2),  levels=c("White","Black")),
               y    =c(1, 3, 5, 7))
d
#      Sex  Race y
# 1   Male White 1
# 2 Female White 3
# 3   Male Black 5
# 4 Female Black 7

resim açıklamasını buraya girin

Araçları y, bu kategorik değişkenler şunlardır:

aggregate(y~Sex,  d, mean)
#      Sex y
# 1   Male 3
# 2 Female 5
## i.e., the difference is 2
aggregate(y~Race, d, mean)
#    Race y
# 1 White 2
# 2 Black 6
## i.e., the difference is 4

Bu araçlar arasındaki farkları, monte edilmiş bir modelin katsayıları ile karşılaştırabiliriz:

summary(lm(y~Sex+Race, d))
# ...
# Coefficients:
#             Estimate Std. Error  t value Pr(>|t|)    
# (Intercept)        1   3.85e-16 2.60e+15  2.4e-16 ***
# SexFemale          2   4.44e-16 4.50e+15  < 2e-16 ***
# RaceBlack          4   4.44e-16 9.01e+15  < 2e-16 ***
# ...
# Warning message:
#   In summary.lm(lm(y ~ Sex + Race, d)) :
#   essentially perfect fit: summary may be unreliable

Bu durum hakkında bilinmesi gereken şey, bir etkileşim terimi olmadan paralel çizgiler varsaydığımızdır. Böylece, Estimatefor (Intercept)beyaz erkeklerin ortalamasıdır. Estimateİçin SexFemaledişilerin ortalama ve erkeklerin ortalama arasındaki farktır. Estimateİçin RaceBlacksiyahların ortalama ve beyazların ortalama arasındaki farktır. Yine, bir etkileşim terimi olmayan bir model, etkilerin kesinlikle toplanır olduğunu (çizgiler kesinlikle paraleldir) varsayarsak, siyah dişilerin ortalaması beyaz erkeklerin ortalaması artı kadınların ortalaması ile erkeklerin ortalaması artı arasındaki farktır. siyahların ortalaması ve beyazların ortalaması arasındaki fark.


Teşekkür ederim! Çok açık ve yararlı. Sonunda etkileşim terimlerinden bahsediyorsunuz. Bir etkileşim terimi varsa, bu betaları nasıl değiştirir (etkileşim terimi modelindeki yeni betalar anlamına gelir)? Etkileşim terimi için p değerinin önemli olduğunu biliyorum, ancak etkileşim terimi beta'nın anlamlı bir yorumu var mı? Yardımınız için tekrar teşekkürler!
Renee

1
β^Femalex¯White Malex¯White Female

Mantıklı. Teşekkür ederim! & ana etkiyi iyileştiren etkileşim terimi nedeniyle etkileşim terimi olmadan modelden değiştirilir mi? Etkileşim yoksa, ana etki terimi teorik olarak aynı olur mu?
Renee

Etkileşim etkisi tam olarak 0 (sonsuz ondalık basamaklara) olsaydı, sadece popülasyonda değil, aynı zamanda örneğinizde de, ana etki betaları, etkileşim terimi olmayan veya olmayan bir modelde aynı olurdu.
gung - Monica'yı eski

1
@ hans0l0, bu, burada yorumlara gömülü bilgiler yerine yeni bir soru olarak daha iyi olurdu; bağlam için buna bağlayabilirsiniz. Kısaca, tüm sürekli değişkenler = 0 olduğunda referans seviyelerinin ortalamasıdır.
gung - Monica'yı eski

6

β^0β^

Örneğinizi yarış kategorisine ( Asya deyin ) üçüncü bir seviye eklemek ve referans olarak Beyaz'ı seçmek için biraz genişletirsek, aşağıdakilere sahip olursunuz:

  • β^0=x¯White
  • β^Black=x¯Blackx¯White
  • β^Asian=x¯Asianx¯White

β^

  • x¯Asian=β^Asian+β^0

Ne yazık ki, birden fazla kategorik değişken söz konusu olduğunda, kesişim için doğru yorumlama artık açık değildir (sondaki nota bakınız). Her biri birden fazla seviyeye ve bir referans seviyesine sahip n kategori olduğunda (örneğin , örnekte Beyaz ve Erkek ), kesişmenin genel formu şöyledir:

β^0=i=1nx¯reference,i(n1)x¯,
x¯reference,i is the mean of the reference level of the i-th categorical variable,
x¯ is the mean of the whole data set

β^

Örneğinize geri dönersek şunu elde ederiz:

  • β^0=x¯White+x¯Malex¯
  • β^Black=x¯Blackx¯White
  • β^Asian=x¯Asianx¯White
  • β^Female=x¯Femalex¯Male

You will notice that the mean of the cross categories (e.g. White males) are not present in any of the β^. As a matter of fact, you cannot calculate these means precisely from the results of this type of regression.

The reason for this is that, the number of predictor variables (i.e. the β^) is smaller then the number of cross categories (as long as you have more than 1 category) so a perfect fit is not always possible. If we go back to your example, the number of predictors is 4 (i.e. β^0, β^Black, β^Asian and β^Female) while the number of cross categories is 6.

Numerical Example

Let me borrow from @Gung for a canned numerical example:

d = data.frame(Sex=factor(rep(c("Male","Female"),times=3), levels=c("Male","Female")),
    Race =factor(rep(c("White","Black","Asian"),each=2),levels=c("White","Black","Asian")),
    y    =c(0, 3, 7, 8, 9, 10))
d

#      Sex  Race  y
# 1   Male White  0
# 2 Female White  3
# 3   Male Black  7
# 4 Female Black  8
# 5   Male Asian  9
# 6 Female Asian 10

In this case, the various averages that will go in the calculation of the β^ are:

aggregate(y~1,  d, mean)

#          y
# 1 6.166667

aggregate(y~Sex,  d, mean)

#      Sex        y
# 1   Male 5.333333
# 2 Female 7.000000

aggregate(y~Race, d, mean)

#    Race   y
# 1 White 1.5
# 2 Black 7.5
# 3 Asian 9.5

We can compare these numbers with the results of the regression:

summary(lm(y~Sex+Race, d))

# Coefficients:
#             Estimate Std. Error t value Pr(>|t|)
# (Intercept)   0.6667     0.6667   1.000   0.4226
# SexFemale     1.6667     0.6667   2.500   0.1296
# RaceBlack     6.0000     0.8165   7.348   0.0180
# RaceAsian     8.0000     0.8165   9.798   0.0103

As you can see, the various β^ estimated from the regression all line up with the formulas given above. For example, β^0 is given by:

β^0=x¯White+x¯Malex¯
Which gives:
1.5 + 5.333333 - 6.166667
# 0.66666

Note on the choice of contrast

A final note on this topic, all the results discussed above relate to categorical regressions using contrast treatment (the default type of contrast in R). There are different types of contrast which could be used (notably Helmert and sum) and and it would change the interpretation of the various β^. However, It would not change the final predictions from the regressions (e.g. the prediction for White males is always the same no matter which type of contrast you use).

My personal favourite is contrast sum as I feel that the interpretation of the β^contr.sum generalises better when there are multiple categories. For this type of contrast, there is no reference level, or rather the reference is the mean of the whole sample, and you have the following β^contr.sum:

  • β^0contr.sum=x¯
  • β^icontr.sum=x¯ix¯

If we go back to the previous example, you would have:

  • β^0contr.sum=x¯
  • β^Whitecontr.sum=x¯Whitex¯
  • β^Blackcontr.sum=x¯Blackx¯
  • β^Asiancontr.sum=x¯Asianx¯
  • β^Malecontr.sum=x¯Malex¯
  • β^Femalecontr.sum=x¯Femalex¯

You will notice that because White and Male are no longer reference levels, their β^contr.sum are no longer 0. The fact that these are 0 is specific to contrast treatment.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.