Çoklu regresyondaki yordayıcılar arasında yüksek korelasyon ile nasıl başa çıkılır?


18

Aşağıdaki gibi bir makalede bir referans buldum:

Tabachnick & Fidell'e (1996) göre, iki değişkenli korelasyonu .70'den fazla olan bağımsız değişkenler çoklu regresyon analizine dahil edilmemelidir.

Sorun: Çoklu regresyon tasarımında,> .80, VIF'ler yaklaşık .2 - .3, Tolerans ~ 4-5 ile ilişkili 3 değişken kullandım. Bunlardan hiçbirini dışlayamıyorum (önemli öngörücüler ve sonuç). .80'de korelasyon gösteren 2 öngörücü üzerindeki sonuçları gerilediğimde, her ikisi de önemli kaldı, her biri önemli varyanslar öngördü ve bu iki değişken, dahil edilen 10 değişken arasında en büyük kısmi ve semipartial korelasyon katsayılarına sahiptir (5 kontrol).

Soru: Modelim yüksek korelasyonlara rağmen geçerli mi? Herhangi bir referans büyük memnuniyetle!


Cevaplar için teşekkür ederim!

Tabachnick ve Fidell'i rehber olarak kullanmadım, bu referansı tahminciler arasında yüksek eşzamanlılık ile ilgili bir makalede buldum.

Yani, temel olarak, modeldeki yordayıcı sayısı için çok az vakam var (birçok kategorik, kukla kodlanmış kontrol değişkeni- yaş, görev süresi, cinsiyet, vb.) - 72 vaka için 13 değişken. Durum Dizini tüm kontroller ile ~ 29 ve bunlar olmadan ~ 23'tür (5 değişken).

Herhangi bir değişkeni bırakamıyorum ya da bunları birleştirmek için faktöriyel analizi kullanamıyorum çünkü teorik olarak kendi başlarına anlamları var. Daha fazla veri almak için çok geç. SPSS'de analiz yaptığım için belki de sırt regresyonu için bir sözdizimi bulmak en iyisi olurdu (daha önce yapmamış olsam da ve sonuçları yorumlamak benim için yeni olurdu).

Eğer önemliyse, aşamalı regresyon gerçekleştirdiğimde, aynı yüksek derecede ilişkili 2 değişken, sonucun tek anlamlı yordayıcısı olarak kaldı.

Ve hala bu değişkenlerin her biri için yüksek olan kısmi korelasyonların onları neden modelde tuttuğumun bir açıklaması olarak önemli olup olmadığını anlamıyorum (sırt regresyonu yapılamıyorsa).

"Regresyon teşhisi: etkili veri ve eş-kollektifliğin kaynaklarını belirleme / David A. Belsley, Edwin Kuh ve Roy E. Welsch, 1980", çoklu-doğrusallığı anlamada yardımcı olur mu? Veya diğer referanslar faydalı olabilir mi?


2
Bu durumun açık bir örneği için, stats.stackexchange.com/a/14528 adresindeki 10 IV analizine bakın . Burada, tüm IV'ler güçlü bir şekilde ilişkilidir (yaklaşık% 60). Ama hepsini hariç tutsaydın, hiçbir şey kalmazdı! Genellikle bu bırakamazsınız Bu durumda herhangi bu değişkenlerin. Bu, T&F önerisini savunulamaz hale getirir.
whuber

Gerçekten de, Tabachnick ve Fidell'de en azından biraz şüpheli olduğunu düşündüğüm birtakım duyurular var ... bir kitapta bir şey basılması, her zaman mantıklı olduğu anlamına gelmez.
Glen_b

Yanıtlar:


20

Kilit problem korelasyon değil, eşdüzeyliktir (örneğin, Belsley'nin eserlerine bakınız). Bu en iyi durum endeksleri (mevcut bilgilerinizi kullanarak test edilir R, SASşiddetli 30 üzerinde, orta Eşdoğrusallık () Belsley 10'un üzerine. Korelasyon gerekli ne de Eşdoğrusallık için yeterli bir koşul ne olduğunu da. Ve muhtemelen diğer programlar Durumu endeksleri göstermektedir, ama aynı zamanda bağlıdır ortak değişkenlikte hangi değişkenlerin yer aldığı.

Yüksek eşzamanlılık bulursanız, parametre tahminlerinizin kararsız olduğu anlamına gelir. Yani, verilerinizdeki küçük değişiklikler (bazen 4. önemli şekilde) parametre tahminlerinizde büyük değişikliklere neden olabilir (hatta bazen işaretlerini tersine çevirebilir). Bu kötü bir şey.

Çözümler 1) Daha fazla veri elde etmek 2) Bir değişkeni düşürmek 3) Değişkenleri birleştirmek (örneğin, kısmi en küçük karelerle) ve 4) Eğimli sonuçlar veren, ancak tahminlerdeki sapmayı azaltan sırt regresyonu yapmak.


Tabachnick ve Fidell sosyal bilimler için çok değişkenli güzel bir kitap yazdılar. Onlar istatistikçi değiller ama çok değişkenli bilgileri çok iyi. Ama basitleştirmek için temel kurallar oluşturabileceklerini ve istatistiksel incelikleri kaçırabileceklerini düşünüyorum. Bu yüzden Peter'ın cevaplarında yazdıklarından çok söylediklerine güvenirim.
Michael R. Chernick

Teşekkürler @MichaelChernick. Aslında tezimi çoklu regresyon için eşdoğrusallık teşhisi üzerine yazdım.
Peter Flom - Monica'yı eski durumuna döndürün

Benim kadar yaşlı olduğunuzu ve bu nedenle çalışmanızın Belsley, Kuh ve Welsch ve Cook'un çalışmalarından sonra geldiğini varsayıyorum. Cook'un çalışmalarının çoğunlukla diğer teşhis konularında (kaldıraç ve normallik dışı) olduğunu biliyorum, ancak çoklu doğrusallık hakkında bir şey yaptı mı? Tabii ki ridge regresyonu benim zamanımdan önce bile geri dönüyor
Michael R. Chernick

1
@Peter Flom: Korelasyon neden eşbiçimlilik için ne gerekli ne de yeterli bir koşul değildir? Doğrusal olmayan korelasyondan mı bahsediyorsunuz?
Julian

5
Gerekli değildir, çünkü çok sayıda değişken varsa, tüm çiftler sadece biraz ilişkili olabilir, ancak bunların toplamı mükemmel şekilde doğrusaldır. Bu yeterli değildir, çünkü oldukça yüksek korelasyonun durum indeksleri başına zahmetli bir eşzamanlılık sağlamadığı durumlar vardır
Peter Flom - Reinstate Monica
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.