Çoklu regresyon modelinde korelasyon belirleyicilerinin olmasının etkisi nedir?


45

Doğrusal modeller sınıfımda iki yordayıcının bağıntılı olması ve her ikisinin de bir modele dahil edilmesi durumunda birinin önemsiz olacağını öğrendim. Örneğin, bir evin büyüklüğünü ve yatak odası sayısının korele olduğunu varsayın. Bu iki öngörücüyü kullanan bir evin maliyetini tahmin ederken, ikisi de aynı bilgiyi sağladığı için bunlardan biri düşebilir. Sezgisel olarak, bu mantıklı geliyor, ancak biraz daha teknik sorularım var:

  1. Bu etki, modelde sadece bir tane içerdiğinde veya her iki öngörücüyü de içerdiğinde, regresyon katsayılarının p-değerleri içinde kendini nasıl gösterir?
  2. Regresyon katsayılarının varyansı, modele iki tahminci dahil etmekten veya sadece birine sahip olmaktan nasıl etkilenir?
  3. Modelin hangi öngörücüsünün daha az anlamlı olmasını seçeceğini nasıl bilebilirim?
  4. Sadece bir tanesini dahil etmek veya her iki öngörücüyü dahil etmek, öngörülen maliyetimin değerini / varyansını nasıl değiştirir?

6
Bazı sorularınızın cevapları , sadece hafif korelasyonlu bir yordayıcı kümesinden her birinin topluca ait olsa bile önemsiz göründüğü bir durumu açıklayan bir durum tanımlayan stats.stackexchange.com/a/14528 adresindeki gibi başka başlıklar halinde ortaya çıktı. Modelde Bu iyi bir soru setidir ancak çok sayıda kaygı ve teknikle sonuçlanır; Bütün kitaplar onlar hakkında yazılmıştır. Örneğin, Frank Harrell Regresyon Modelleme Stratejileri'ne bakınız .
whuber

1
Evin büyüklüğünü ve yatak odalarını kullanarak, korelasyonun 1 veya -1'den farklı olması durumunda önemsizliğin garanti edilmediğini görebilirsiniz. Aslında aynı büyüklükte 2 yatak odalı ve 3 yatak odalı evler var ve bunların maliyetleri (önemli ölçüde) farklı olabilir ve bu da her iki öngörücüyü de önemli kılar. Ancak, metre kare büyüklüğü ve metre kare büyüklüğü korelasyon = 1 var ve bunlardan biri her zaman düşebilir.
Pere

Yanıtlar:


38

İstediğiniz konu çok kutupluluktur . etiketi altında sınıflandırılmış bazı başlıkları okumak isteyebilirsiniz . @ whuber'un özellikle yukarıda bağlantı verdiği cevap , zaman ayırmaya değer.


"İki öngörücü ilişkilendirilirse ve her ikisi de bir modele dahil edilirse, birinin önemsiz olacağı" iddiası doğru değildir. Bir değişkenin gerçek bir etkisi varsa, değişkenin anlamlı olma olasılığı, etkinin büyüklüğü, hata varyansının büyüklüğü, değişkenin kendisinin varyansı, veri miktarı gibi birçok şeyin bir fonksiyonudur var ve modeldeki diğer değişkenlerin sayısı. Değişkenlerin ilişkili olup olmadığı da önemlidir, ancak bu gerçekleri geçersiz kılmaz. Aşağıdaki basit gösteriyi düşünün R:

library(MASS)    # allows you to generate correlated data
set.seed(4314)   # makes this example exactly replicable

# generate sets of 2 correlated variables w/ means=0 & SDs=1
X0 = mvrnorm(n=20,   mu=c(0,0), Sigma=rbind(c(1.00, 0.70),    # r=.70
                                            c(0.70, 1.00)) )
X1 = mvrnorm(n=100,  mu=c(0,0), Sigma=rbind(c(1.00, 0.87),    # r=.87
                                            c(0.87, 1.00)) )
X2 = mvrnorm(n=1000, mu=c(0,0), Sigma=rbind(c(1.00, 0.95),    # r=.95
                                            c(0.95, 1.00)) )
y0 = 5 + 0.6*X0[,1] + 0.4*X0[,2] + rnorm(20)    # y is a function of both
y1 = 5 + 0.6*X1[,1] + 0.4*X1[,2] + rnorm(100)   #  but is more strongly
y2 = 5 + 0.6*X2[,1] + 0.4*X2[,2] + rnorm(1000)  #  related to the 1st

# results of fitted models (skipping a lot of output, including the intercepts)
summary(lm(y0~X0[,1]+X0[,2]))
#             Estimate Std. Error t value Pr(>|t|)    
# X0[, 1]       0.6614     0.3612   1.831   0.0847 .     # neither variable
# X0[, 2]       0.4215     0.3217   1.310   0.2075       #  is significant
summary(lm(y1~X1[,1]+X1[,2]))
#             Estimate Std. Error t value Pr(>|t|)    
# X1[, 1]      0.57987    0.21074   2.752  0.00708 **    # only 1 variable
# X1[, 2]      0.25081    0.19806   1.266  0.20841       #  is significant
summary(lm(y2~X2[,1]+X2[,2]))
#             Estimate Std. Error t value Pr(>|t|)    
# X2[, 1]      0.60783    0.09841   6.177 9.52e-10 ***   # both variables
# X2[, 2]      0.39632    0.09781   4.052 5.47e-05 ***   #  are significant

İki değişken arasındaki korelasyon ilk örnekte en düşük ve üçüncüde en yüksek olmakla birlikte, hiçbir değişken ilk örnekte önemli değildir ve her ikisi de son örnekte değildir. Etkilerin büyüklüğü, her üç durumda da aynıdır ve değişkenlerin ve hataların varyansları aynı olmalıdır (bunlar stokastiktir ancak aynı varyansa sahip popülasyonlardan alınmıştır). Burada gördüğümüz desen nedeniyle öncelikle benim manipüle etmektir her durum için s. N


Sorularınızı çözmede anlaşılması gereken en önemli kavram varyans enflasyon faktörüdür (VIF). VIF, regresyon katsayınızındaki varyansın, değişken modeldeki diğer tüm değişkenlerle tamamen ilişkisiz olsaydı, aksi durumda olacağından daha büyüktü. VIF'nin, çarpımsal bir faktör olduğuna dikkat edin, eğer söz konusu değişken ilişkisizse VIF = 1. VIF'in basit bir şekilde anlaşılması aşağıdaki gibidir: Modelinizdeki diğer tüm değişkenlerden (örneğin, ) bir değişkeni öngören bir modele (örneğin, ) uydurabilir ve birden fazla elde edebilirsiniz . İçin VIF'ye olacaktır . Diyelim için VIF'ye demek idix 2 R, 2 x 1 1 / ( 1 - R ' 2 ) x 1 10 x 1 10 x X, 1X1X2R2X11/(1R2)X110(genellikle aşırı çoklu doğrusal bir eşik değeri olarak kabul), daha sonra da regresyon katsayısı örnekleme dağılımının varyans olacaktır halinde elde edilmiş olan göre daha büyük tamamen modelde diğer tüm değişkenler ilintisiz edilmiştir. X110×X1

Her iki korelasyonlu değişkeni de dahil ederseniz ne olacağını düşünmek, sadece birine benzer, ancak yukarıda tartışılan yaklaşımdan biraz daha karmaşık. Bunun nedeni, bir değişken içermemek, modelin artık varyansı ve bundan hesaplanan her şeyi (regresyon katsayılarının varyansı dahil) değiştiren daha az serbestlik dereceleri kullandığı anlamına gelir. Ek olarak, dahil olmayan değişken gerçekte yanıtla ilişkiliyse, bu değişkene bağlı olarak yanıttaki varyans, artık varyansa dahil edilir, aksi halde olduğundan daha büyük olur. Bu nedenle, birkaç şey aynı anda değişir (değişken, başka bir değişkenle ve artık varyansla ilişkilidir veya değişmez) ve diğer değişkeni içeren / düşürmenin kesin etkisi, bu işlemlerin nasıl gerçekleştiğine bağlı olacaktır.


VIF anlayışıyla donanmış, sorularınızın yanıtları:

  1. Regresyon katsayısının örnekleme dağılımının varyansı, modeldeki diğer değişkenlerle korele olsaydı (VIF faktörü ile) daha büyük olacağından, p-değerleri aksi belirtilenden daha yüksek olurdu (yani, daha az anlamlı). .
  2. Regresyon katsayılarının varyansları, daha önce tartışıldığı gibi daha büyük olacaktır.
  3. Genel olarak, modeli çözmeden bunu bilmek zordur. Tipik olarak, ikisinden yalnızca biri önemliyse, ile daha güçlü iki değişkenli korelasyona sahip olan kişi olacaktır . Y
  4. Tahmin edilen değerlerin ve değişkenliklerinin nasıl değişeceği, oldukça karmaşıktır. Değişkenlerin ne kadar güçlü bir şekilde ilişkilendirildiğine ve verilerinizdeki yanıt değişkeninizle ilişkili göründükleri şekle bağlıdır. Bu konuda, cevabımı burada okumanıza yardımcı olabilir: Çoklu regresyonda 'değişkenleri kontrol etmek' ile diğer değişkenleri yok saymak arasında bir fark var mı?

5

Bu daha çok yorum, ancak bir grafik ve bir kod eklemek istedim.

"İki öngörücü birbiriyle ilişkiliyse ve her ikisi de bir modele dahil edilmişse, biri önemsiz olur" ifadesinin "yalnızca birini" kastettiğinizde yanlış olduğunu düşünüyorum. İkili istatistiksel anlamlılık değişken seçiminde kullanılamaz.

İşte uyluk çevresi, cilt kıvrım kalınlığı * ve orta kol çevresi üzerindeki vücut yağ yüzdesinde bir gerileme kullanan karşı örnek:

. webuse bodyfat, clear
(Body Fat)

. reg bodyfat thigh triceps midarm

      Source |       SS       df       MS              Number of obs =      20
-------------+------------------------------           F(  3,    16) =   21.52
       Model |  396.984607     3  132.328202           Prob > F      =  0.0000
    Residual |  98.4049068    16  6.15030667           R-squared     =  0.8014
-------------+------------------------------           Adj R-squared =  0.7641
       Total |  495.389513    19  26.0731323           Root MSE      =    2.48

------------------------------------------------------------------------------
     bodyfat |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
       thigh |  -2.856842   2.582015    -1.11   0.285    -8.330468    2.616785
     triceps |   4.334085   3.015511     1.44   0.170    -2.058512    10.72668
      midarm |  -2.186056   1.595499    -1.37   0.190    -5.568362     1.19625
       _cons |   117.0844   99.78238     1.17   0.258    -94.44474    328.6136
------------------------------------------------------------------------------

. corr bodyfat thigh triceps midarm 
(obs=20)

             |  bodyfat    thigh  triceps   midarm
-------------+------------------------------------
     bodyfat |   1.0000
       thigh |   0.8781   1.0000
     triceps |   0.8433   0.9238   1.0000
      midarm |   0.1424   0.0847   0.4578   1.0000


. ellip thigh triceps, coefs plot( (scatteri `=_b[thigh]' `=_b[triceps]'), yline(0, lcolor(gray)) xline(0, lcolor(gray)) legend(off))

görüntü tanımını buraya girin

Regresyon tablosundan görebileceğiniz gibi, p değerleri biraz değişse de her şey önemsizdir.

Son Stata komutu, regresyon katsayılarının 2'sinin (bilinen güven aralıklarının iki boyutlu bir analoğu) güvenirlik noktasını nokta tahminleriyle (kırmızı nokta) çizer. Derinin kıvrım kalınlığı ve uyluk çevresi katsayıları için olan güven elipsi regresörlerin kolinitesini yansıtan uzun, dar ve eğimlidir. Tahmini katsayılar arasında yüksek negatif kovaryans vardır. Elips, dikey ve yatay eksenlerin parçalarını kapsar; bu, değerinin sıfır olduğu varsayımlarını reddedemeyiz anlamına gelir; Başka bir deyişle, hem uyluk hem de triseps vücut yağıyla ilgilidir, ancak hangisinin suçlu olduğunu belirleyemezsiniz.β

Peki hangi tahmin edicilerin daha az anlamlı olacağını nasıl bilebiliriz? Bir regresördeki varyasyon iki tipte sınıflandırılabilir:

  1. Her bir regresöre özgü değişim
  2. Regresörler tarafından paylaşılan çeşitlilik

Her bir regresörün katsayılarını tahmin ederken, sadece birincisi kullanılacaktır. tahmininde ve hesaplanmasında kullanılmasına rağmen, tahsis edilemediğinden ortak değişkenlik görmezden gelinmiştir . Çok az benzersiz bilgi olduğunda, güven düşük olacak ve katsayı farkları yüksek olacaktır. Çok kutupluluk ne kadar yüksek olursa, benzersiz varyasyon o kadar küçük ve farklılıklar da o kadar büyük olur. R2


* Cilt kıvrımı, triceps kasından alınan ve bir pergel kullanılarak ölçülen bir deri kıvrımının genişliğidir.


Örneğinizi beğeniyorum, ancak asıl sorudaki ifadenin "eğer [...], yalnızca biri önemsiz olacak" demesi durumunda bunun tam bir örneği olacaktır, ancak "sadece" kelimesini içermiyor.
amip diyor Reinstate Monica

@ amoeba Bu mükemmel bir nokta. Yorumumu değiştireceğim.
Dimitriy V. Masterov

Daha fazla açıklamak için bazı formüller sunabilir misiniz: "Her bir regresörün katsayılarını tahmin ederken, yalnızca birincisi kullanılacaktır. Tahsis edilemeyeceği için ortak değişkenler göz ardı edilir"
mac

3

@Whuber'ın belirttiği gibi, bu karmaşık bir sorudur. Ancak, gönderinizin ilk cümlesi büyük bir basitleştirmedir. Genellikle iki (veya daha fazla) değişkenin ilişkili olacağı ve her ikisinin de bağımlı değişkenle ilgili olacağı bir durumdur. Önemli olup olmadıkları, hem etki büyüklüğüne hem de hücre büyüklüğüne bağlıdır.

Örneğinize göre, belirli bir evin büyüklüğü için insanların daha az oda tercih ettiklerini (en azından NYC'de bu mantıksız olmadığını - eski binaları, daha sağlam duvarları vb. Ve mahalle için bir işaret oluşturabileceğini) varsayalım. O zaman her ikisi de ters yönlerde önemli olabilir!

Veya, iki değişkenin ev büyüklüğü ve mahalle olduğunu varsayalım - bunların daha iyi mahallelerde elbette ki daha büyük evlerle ilişkilendirileceğini - ancak yine de her ikisinin de önemli olabileceğini ve kesinlikle her ikisinin de ev fiyatıyla ilgili olacağını varsayalım.

Ayrıca, yalnızca "ilişkili" maskeler karmaşıklığı kullanmak. Değişkenler korelasyon olmadan güçlü şekilde ilişkili olabilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.