Bir endeks fonunun zaman içindeki davranışını tahmin etmek için çoklu regresyonda kullanılabilecek birkaç yüz finansal değişkenin değerlerinden oluşan büyük bir veri setim var. Mümkün olduğu kadar tahmin gücünü korurken değişkenlerin sayısını on'a kadar azaltmak istiyorum. Eklendi: Orijinal değişkenlerin ekonomik anlamını korumak için azaltılmış değişken kümesinin orijinal değişkenin bir alt kümesi olması gerekir. Bu nedenle, örneğin, orijinal değişkenlerin doğrusal kombinasyonları veya kümeleri ile sonuçlanmamalıyım.
Bunun nasıl yapılacağı hakkında bazı (muhtemelen naif) düşünceler:
- Her değişkenle basit bir doğrusal regresyon gerçekleştirin ve en büyük değerine sahip on tanesini seçin . Tabii ki, en iyi on bireysel değişkenin en iyi on grup olacağının garantisi yoktur.
- Bir ana bileşen analizi yapın ve ilk birkaç ana eksenle en büyük ilişkilendirmeleri olan on orijinal değişkeni bulmaya çalışın.
Hiyerarşik regresyon yapabileceğimi sanmıyorum çünkü değişkenler gerçekten iç içe değil. On değişkenin tüm olası kombinasyonlarını denemek hesaplamaya uygun değildir çünkü çok fazla kombinasyon vardır.
Çoklu regresyondaki değişken sayısını azaltma sorununu çözmek için standart bir yaklaşım var mı?
Standart bir yaklaşım olacağı yeterince yaygın bir sorun gibi görünüyor.
Çok yararlı bir cevap, sadece standart bir yöntemden bahsetmekle kalmaz, aynı zamanda nasıl ve neden çalıştığına da genel bir bakış verir. Alternatif olarak, tek bir standart yaklaşım değil, farklı güçlü ve zayıf yanları olan birden fazla yaklaşım varsa, çok yararlı bir cevap onların artılarını ve eksilerini tartışan olacaktır.
whuber'ın aşağıdaki yorumu son paragraftaki isteğin çok geniş olduğunu gösterir. Bunun yerine, büyük yaklaşımların bir listesini, belki de her birinin çok kısa bir tanımıyla iyi bir cevap olarak kabul ediyorum. Terimler edindikten sonra, her bir detayı kendim bulabilirim.