Çıktı ve öngörücüler arasında önemli bir korelasyon olmadığında iyi bir doğrusal regresyon modeli elde etmek nasıl mümkün olabilir?


17

Değişkenler / özellikler kümesi kullanarak doğrusal bir regresyon modeli geliştirdim. Ve modelin iyi bir performansı var. Ancak, tahmin edilen değişkenle iyi bir korelasyonu olan bir değişkenin olmadığını fark ettim. Bu nasıl mümkün olaiblir?


3
Bunlar harika cevaplar, fakat soru cevapların doldurmaya çalıştığı pek çok ayrıntıyı kaçırıyor. Aklımdaki en büyük soru "iyi korelasyon" ile kastettiğiniz şey.
DHW

Yanıtlar:


35

Bir çift değişken, yüksek kısmi korelasyon (diğer değişkenlerin etkisine karşılık gelen korelasyon) ancak düşük - hatta sıfır - marjinal korelasyon (çift korelasyon) gösterebilir.

Bu da, bir yanıt, y ve bazı kestirimci arasındaki ikili korelasyonun, diğer değişkenler toplamı arasında (doğrusal) "kestirimci" değerle uygun değişkenleri belirlemede çok az değerli olabileceği anlamına gelir.

Aşağıdaki verileri göz önünde bulundurun:

   y  x
1  6  6
2 12 12
3 18 18
4 24 24
5  1 42
6  7 48
7 13 54
8 19 60

Y ve x arasındaki korelasyon . Ben en küçük kareler çizgi çizerseniz, kesinlikle yatay olduğunu ve R 2 doğal olacak 0 .0R20

Ancak, gözlemlerden iki gruptan hangisinin geldiğini gösteren yeni bir g değişkeni eklediğinizde, x son derece bilgilendirici olur:

   y  x g
1  6  6 0
2 12 12 0
3 18 18 0
4 24 24 0
5  1 42 1
6  7 48 1
7 13 54 1
8 19 60 1

, içinde X ve G, her iki değişken olan bir doğrusal regresyon modelinin 1 olacaktır.R2

Plot of y vs x showing a lack of pairwise linear relationship but with color indicating the group; within each group the relationship is perfect

Bu tür bir şeyin modeldeki değişkenlerin her birinde meydana gelmesi mümkündür - hepsinin yanıtla küçük ikili korelasyonu vardır, ancak onlarla birlikte olan model yanıtı tahmin etmede çok iyidir.

Ek okuma:

https://en.wikipedia.org/wiki/Omitted-variable_bias

https://en.wikipedia.org/wiki/Simpson%27s_paradox


Bu davranış gerçek bir doğrusal modelde olabilir mi? Burada renk (g = 0/1) ve y yanıtı arasındaki ilişki doğrusal değildir. Ancak, ne olabilir ki olmadan modelin g olabilir (isteğe bağlı olarak?) Daha düşük R 2 ile modelin g . R2gR2g
Vimal

Tanrım, modele yakından bakmalıydım :) . Bu soruyu kazıyın! y=x41g
Vimal

Aslında bu, cevabın yaratıldığı modeldi; ancak mavi noktaları rastgele bir üniteden (ekran yüzeyinden size doğru, yeni bir "g" ekseni yönünde) kaldırdığınızı ve altı noktadan bir düzlemin uyduğunu düşünerek hemen doğrusal olduğunu görebilirsiniz.
Glen_b -Restate Monica

1
Regresyonda, X değişkenleri koşullandırılır ve sıklıkla kontrol edilebilir, bu nedenle "bağımsızlık" genellikle kişinin aradığı şey değildir. Tasarlanan deneylerin dışında, bağımsız öngörücüler neredeyse hiçbir durumda görülmez ve deneyler tasarladıysanız, öngörücüler rastgele değişkenler değildir, bu yüzden "bağımsızlık" (istatistiksel anlamda) bakacağınız şey değildir - bir şeydir muhtemelen karşılıklı diklik gibi. ...
ctd

1
ctd ... Gerçekten tüm öngörücülerin (karşılıklı / p-değişkenli) istatistiksel bağımsızlığını kastediyorsanız, tek değişkenli regresyonlarda bu şekilde tam olarak sıfır katsayı elde edemezsiniz, ancak yukarıdaki örnek gibi tam bir ayırmaya da ihtiyacınız yoktur. .
Glen_b

2

Sanırım Y üzerinde gerileyen birden fazla bağımsız değişkeni olan , X 2 , ... olan bir çoklu regresyon modeli geliştirdiğinizi varsayalım. Buradaki basit cevap, çift yönlü bir korelasyonun, yetersiz bir regresyon modeli çalıştırmak gibidir. Bu nedenle, önemli değişkenleri atladınız.X1X2

X2X1X1ρx1,y|x2y=β1X1+β2X2+ϵρx1,y


0

XXXXXX=x1,x2...oipicicioi=0cixicioi=0cixiX1X2EX1X2EX1X1X2X2EX1X2YY

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.