İstediğiniz konu çok kutupluluktur . Multicollinearity etiketi altında sınıflandırılmış CV'deki bazı başlıkları okumak isteyebilirsiniz . @ whuber'un özellikle yukarıda bağlantı verdiği cevap , zaman ayırmaya değer.
"İki öngörücü ilişkilendirilirse ve her ikisi de bir modele dahil edilirse, birinin önemsiz olacağı" iddiası doğru değildir. Bir değişkenin gerçek bir etkisi varsa, değişkenin anlamlı olma olasılığı, etkinin büyüklüğü, hata varyansının büyüklüğü, değişkenin kendisinin varyansı, veri miktarı gibi birçok şeyin bir fonksiyonudur var ve modeldeki diğer değişkenlerin sayısı. Değişkenlerin ilişkili olup olmadığı da önemlidir, ancak bu gerçekleri geçersiz kılmaz. Aşağıdaki basit gösteriyi düşünün R
:
library(MASS) # allows you to generate correlated data
set.seed(4314) # makes this example exactly replicable
# generate sets of 2 correlated variables w/ means=0 & SDs=1
X0 = mvrnorm(n=20, mu=c(0,0), Sigma=rbind(c(1.00, 0.70), # r=.70
c(0.70, 1.00)) )
X1 = mvrnorm(n=100, mu=c(0,0), Sigma=rbind(c(1.00, 0.87), # r=.87
c(0.87, 1.00)) )
X2 = mvrnorm(n=1000, mu=c(0,0), Sigma=rbind(c(1.00, 0.95), # r=.95
c(0.95, 1.00)) )
y0 = 5 + 0.6*X0[,1] + 0.4*X0[,2] + rnorm(20) # y is a function of both
y1 = 5 + 0.6*X1[,1] + 0.4*X1[,2] + rnorm(100) # but is more strongly
y2 = 5 + 0.6*X2[,1] + 0.4*X2[,2] + rnorm(1000) # related to the 1st
# results of fitted models (skipping a lot of output, including the intercepts)
summary(lm(y0~X0[,1]+X0[,2]))
# Estimate Std. Error t value Pr(>|t|)
# X0[, 1] 0.6614 0.3612 1.831 0.0847 . # neither variable
# X0[, 2] 0.4215 0.3217 1.310 0.2075 # is significant
summary(lm(y1~X1[,1]+X1[,2]))
# Estimate Std. Error t value Pr(>|t|)
# X1[, 1] 0.57987 0.21074 2.752 0.00708 ** # only 1 variable
# X1[, 2] 0.25081 0.19806 1.266 0.20841 # is significant
summary(lm(y2~X2[,1]+X2[,2]))
# Estimate Std. Error t value Pr(>|t|)
# X2[, 1] 0.60783 0.09841 6.177 9.52e-10 *** # both variables
# X2[, 2] 0.39632 0.09781 4.052 5.47e-05 *** # are significant
İki değişken arasındaki korelasyon ilk örnekte en düşük ve üçüncüde en yüksek olmakla birlikte, hiçbir değişken ilk örnekte önemli değildir ve her ikisi de son örnekte değildir. Etkilerin büyüklüğü, her üç durumda da aynıdır ve değişkenlerin ve hataların varyansları aynı olmalıdır (bunlar stokastiktir ancak aynı varyansa sahip popülasyonlardan alınmıştır). Burada gördüğümüz desen nedeniyle öncelikle benim manipüle etmektir her durum için s. N
Sorularınızı çözmede anlaşılması gereken en önemli kavram varyans enflasyon faktörüdür (VIF). VIF, regresyon katsayınızındaki varyansın, değişken modeldeki diğer tüm değişkenlerle tamamen ilişkisiz olsaydı, aksi durumda olacağından daha büyüktü. VIF'nin, çarpımsal bir faktör olduğuna dikkat edin, eğer söz konusu değişken ilişkisizse VIF = 1. VIF'in basit bir şekilde anlaşılması aşağıdaki gibidir: Modelinizdeki diğer tüm değişkenlerden (örneğin, ) bir değişkeni öngören bir modele (örneğin, ) uydurabilir ve birden fazla elde edebilirsiniz . İçin VIF'ye olacaktır . Diyelim için VIF'ye demek idix 2 R, 2 x 1 1 / ( 1 - R ' 2 ) x 1 10 x 1 10 x X, 1X1X2R2X11/(1−R2)X110(genellikle aşırı çoklu doğrusal bir eşik değeri olarak kabul), daha sonra da regresyon katsayısı örnekleme dağılımının varyans olacaktır halinde elde edilmiş olan göre daha büyük tamamen modelde diğer tüm değişkenler ilintisiz edilmiştir. X110×X1
Her iki korelasyonlu değişkeni de dahil ederseniz ne olacağını düşünmek, sadece birine benzer, ancak yukarıda tartışılan yaklaşımdan biraz daha karmaşık. Bunun nedeni, bir değişken içermemek, modelin artık varyansı ve bundan hesaplanan her şeyi (regresyon katsayılarının varyansı dahil) değiştiren daha az serbestlik dereceleri kullandığı anlamına gelir. Ek olarak, dahil olmayan değişken gerçekte yanıtla ilişkiliyse, bu değişkene bağlı olarak yanıttaki varyans, artık varyansa dahil edilir, aksi halde olduğundan daha büyük olur. Bu nedenle, birkaç şey aynı anda değişir (değişken, başka bir değişkenle ve artık varyansla ilişkilidir veya değişmez) ve diğer değişkeni içeren / düşürmenin kesin etkisi, bu işlemlerin nasıl gerçekleştiğine bağlı olacaktır.
VIF anlayışıyla donanmış, sorularınızın yanıtları:
- Regresyon katsayısının örnekleme dağılımının varyansı, modeldeki diğer değişkenlerle korele olsaydı (VIF faktörü ile) daha büyük olacağından, p-değerleri aksi belirtilenden daha yüksek olurdu (yani, daha az anlamlı). .
- Regresyon katsayılarının varyansları, daha önce tartışıldığı gibi daha büyük olacaktır.
- Genel olarak, modeli çözmeden bunu bilmek zordur. Tipik olarak, ikisinden yalnızca biri önemliyse, ile daha güçlü iki değişkenli korelasyona sahip olan kişi olacaktır . Y
- Tahmin edilen değerlerin ve değişkenliklerinin nasıl değişeceği, oldukça karmaşıktır. Değişkenlerin ne kadar güçlü bir şekilde ilişkilendirildiğine ve verilerinizdeki yanıt değişkeninizle ilişkili göründükleri şekle bağlıdır. Bu konuda, cevabımı burada okumanıza yardımcı olabilir: Çoklu regresyonda 'değişkenleri kontrol etmek' ile diğer değişkenleri yok saymak arasında bir fark var mı?