Yüksek oranda korelasyonlu regresörleri olan çoklu bir doğrusal regresyonda, kullanılacak en iyi strateji nedir? İlişkili tüm regresörlerin ürününü eklemek meşru bir yaklaşım mıdır?
Yüksek oranda korelasyonlu regresörleri olan çoklu bir doğrusal regresyonda, kullanılacak en iyi strateji nedir? İlişkili tüm regresörlerin ürününü eklemek meşru bir yaklaşım mıdır?
Yanıtlar:
Temel bileşenler çok anlamlı ... matematiksel olarak. Bununla birlikte, bu durumda basit bir matematik hilesi kullanmaktan ve sorunum hakkında düşünmeme gerek kalmamasını umuyorum .
Ne tür tahmincilere sahip olduğumu, bağımsız değişkenin ne olduğunu, tahmin edicilerimin neden ilişkili olduğunu, tahmin edicilerimin bazılarının aynı temel gerçeği ölçüp ölçmeyeceğini (eğer öyleyse, sadece çalışabilir miyim Tekli ölçüm ve tahmincilerimden hangisi bunun için en iyisidir?), analiz için ne yapıyorum - çıkarımla ilgilenmiyorsam, sadece tahminle ilgileniyorsam, o zaman gerçekte olduğu gibi şeyleri bırakabilirim. yordayıcı değerleri geçmişe benzer.
Bu sorunla başa çıkmak için ana bileşenleri veya sırt regresyonunu kullanabilirsiniz. Öte yandan, parametre tahmini ile ilgili sorunlara neden olmak için yeterince yüksek bir korelasyona sahip iki değişkeniniz varsa, tahmin açısından çok fazla şey kaybetmeden neredeyse ikisinden birini düşürebilirsiniz - çünkü iki değişken aynı bilgiyi taşır. . Tabii ki, bu sadece problemin iki yüksek korelasyonlu bağımsızlığa bağlı olması durumunda işe yarar. Sorun, birlikte neredeyse ortak olan ikiden fazla değişken içerdiğinde (ikisi sadece ılımlı korelasyonlara sahip olabilir), muhtemelen diğer yöntemlerden birine ihtiyacınız olacaktır.
İşte Stephan'ın cevabından ilham alan başka bir düşünce :
Bağlantılı regresörlerin bazıları anlamlı bir şekilde ilişkiliyse (örneğin, farklı zeka ölçütleri, sözel, matematik vb.), Aşağıdaki değişkeni kullanarak aynı değişkeni ölçen tek bir değişken oluşturabilirsiniz:
Regresörleri toplayın (regresörler bir bütünün bileşenleri ise uygun, örneğin sözel IQ + matematik IQ = Genel IQ)
Regresörlerin ortalaması (eğer regresörler aynı temel yapıyı ölçüyorsa uygun, örneğin, sol ayakkabının boyutu, ayakların uzunluğunu ölçmek için sağ ayakkabının boyutu)
Faktör analizi (ölçümlerdeki hataları hesaba katmak ve gizli bir faktörü çıkarmak için)
Daha sonra tüm ilişkili regresörleri bırakabilir ve bunları yukarıdaki analizden çıkan bir değişkenle değiştirebilirsiniz.
Yukarıdaki Stephan Kolassa ile aynı şeyi söyleyecektim (bu yüzden cevabını aştı). Sadece bazen çoklu doğrusallığın, bir miktar büyüklük ölçüsü ile yüksek oranda ilişkili olan geniş değişkenleri kullanmaktan kaynaklanabileceğini ve yoğun değişkenler kullanarak, yani her şeyi bir büyüklük ölçüsüne bölerek işlerin geliştirilebileceğini ekleyeceğim . Örneğin, birimleriniz ülkeler ise, bağlama bağlı olarak nüfusa, bölgeye veya GSMH'ya göre bölebilirsiniz.
Ah - ve asıl sorunun ikinci kısmına cevap vermek için: İlişkili tüm regresörlerin ürününü eklerken hiçbir durumun iyi bir fikir olacağını düşünemiyorum . Nasıl yardımcı olur? Bu ne anlama geliyor?
Bu konuda uzman değilim, ancak benim ilk düşüncem yordayıcı değişkenleri üzerinde temel bir bileşen analizi yapmak, sonra bağımlı değişkeninizi tahmin etmek için ortaya çıkan temel bileşenleri kullanmak olacaktır.
Yollarından biri korelasyon etkilerini azaltmak için regressors standardize . Standardizasyonda, tüm regresörler kendi araçları ile çıkarılır ve ilgili standart sapmalara bölünür. Özellikle, eğer regresyon matrisi nedir:
Bu bir çare değil, kesinlikle doğru yönde bir adım.