Değişkenler / özellikler kümesi kullanarak doğrusal bir regresyon modeli geliştirdim. Ve modelin iyi bir performansı var. Ancak, tahmin edilen değişkenle iyi bir korelasyonu olan bir değişkenin olmadığını fark ettim. Bu nasıl mümkün olaiblir?
Değişkenler / özellikler kümesi kullanarak doğrusal bir regresyon modeli geliştirdim. Ve modelin iyi bir performansı var. Ancak, tahmin edilen değişkenle iyi bir korelasyonu olan bir değişkenin olmadığını fark ettim. Bu nasıl mümkün olaiblir?
Yanıtlar:
Bir çift değişken, yüksek kısmi korelasyon (diğer değişkenlerin etkisine karşılık gelen korelasyon) ancak düşük - hatta sıfır - marjinal korelasyon (çift korelasyon) gösterebilir.
Bu da, bir yanıt, y ve bazı kestirimci arasındaki ikili korelasyonun, diğer değişkenler toplamı arasında (doğrusal) "kestirimci" değerle uygun değişkenleri belirlemede çok az değerli olabileceği anlamına gelir.
Aşağıdaki verileri göz önünde bulundurun:
y x
1 6 6
2 12 12
3 18 18
4 24 24
5 1 42
6 7 48
7 13 54
8 19 60
Y ve x arasındaki korelasyon . Ben en küçük kareler çizgi çizerseniz, kesinlikle yatay olduğunu ve R 2 doğal olacak 0 .
Ancak, gözlemlerden iki gruptan hangisinin geldiğini gösteren yeni bir g değişkeni eklediğinizde, x son derece bilgilendirici olur:
y x g
1 6 6 0
2 12 12 0
3 18 18 0
4 24 24 0
5 1 42 1
6 7 48 1
7 13 54 1
8 19 60 1
, içinde X ve G, her iki değişken olan bir doğrusal regresyon modelinin 1 olacaktır.
Bu tür bir şeyin modeldeki değişkenlerin her birinde meydana gelmesi mümkündür - hepsinin yanıtla küçük ikili korelasyonu vardır, ancak onlarla birlikte olan model yanıtı tahmin etmede çok iyidir.
Ek okuma:
Sanırım Y üzerinde gerileyen birden fazla bağımsız değişkeni olan , X 2 , ... olan bir çoklu regresyon modeli geliştirdiğinizi varsayalım. Buradaki basit cevap, çift yönlü bir korelasyonun, yetersiz bir regresyon modeli çalıştırmak gibidir. Bu nedenle, önemli değişkenleri atladınız.