İlişkili regresörler ile başa çıkmak


23

Yüksek oranda korelasyonlu regresörleri olan çoklu bir doğrusal regresyonda, kullanılacak en iyi strateji nedir? İlişkili tüm regresörlerin ürününü eklemek meşru bir yaklaşım mıdır?


1
Üzgünüm @ Suncoolsu'nun cevabı silindi. Bu ve ardından gelen yorumlar, çoklu bağlanma ve kötü şartlanma arasındaki farkı açıklığa kavuşturdu. Ayrıca Suncoolsu, bir yorumunda ön standardizasyonun polinom regresyonuna nasıl yardımcı olabileceğine dikkat çekti. Tekrar ortaya çıkarsa oy kullanırdım ;-).
whuber

@ Ίλίας: Birçok uygulamada ürünün dengesiz olması muhtemeldir. Bireysel regresörlerin bazı sıfırları varsa, birçok sıfırdan etkilenebilir; mutlak değerinin bazı yüksek kaldıraç oranlarına yol açan güçlü pozitif eğriltme olasılığı vardır; Kaldıraçlarına ilave olarak, özellikle eşzamanlı outliers olmak üzere, temel verileri yükseltebilir. Özellikle, regresörler orijinal değişkenlerin yeniden ifadeleri ise (günlükler veya kökler gibi), yorumlanması oldukça zor olabilir.
whuber

Yanıtlar:


13

Temel bileşenler çok anlamlı ... matematiksel olarak. Bununla birlikte, bu durumda basit bir matematik hilesi kullanmaktan ve sorunum hakkında düşünmeme gerek kalmamasını umuyorum .

Ne tür tahmincilere sahip olduğumu, bağımsız değişkenin ne olduğunu, tahmin edicilerimin neden ilişkili olduğunu, tahmin edicilerimin bazılarının aynı temel gerçeği ölçüp ölçmeyeceğini (eğer öyleyse, sadece çalışabilir miyim Tekli ölçüm ve tahmincilerimden hangisi bunun için en iyisidir?), analiz için ne yapıyorum - çıkarımla ilgilenmiyorsam, sadece tahminle ilgileniyorsam, o zaman gerçekte olduğu gibi şeyleri bırakabilirim. yordayıcı değerleri geçmişe benzer.


4
Tamamen kabul etti, +1. Fakat PCA'nın “matematiksel bir numara” olarak nitelendirilmesi haksız yere onu bozuyor, IMHO. Srikant'ın öne sürdüğü gibi, toplayıcı veya ortalama regresör gruplarının kabul edilebilir olacağını kabul ederseniz (o zaman emin değilim), PCA da kabul edilebilir olmalıdır ve genellikle uyumu iyileştirir. Üstelik, temel bileşenler, hangi yordayıcı gruplarının birbirleriyle ilişkili olduğu ve nasıl ilişki kurdukları hakkında bir içgörü sağlayabilir: bu, savunuculuğunu yaptığınız düşünce için mükemmel bir araçtır.
whuber

2
@whuber, konunuzu görüyorum ve kabul ediyorum ve PCA'yı küçük düşürmek istemiyorum, kesinlikle +1. Sadece PCA'yı körü körüne kullanmadan ve altta yatan soruna (ki burada kimsenin savunuculuğunu
yapmadığını) bakmadan

11

Bu sorunla başa çıkmak için ana bileşenleri veya sırt regresyonunu kullanabilirsiniz. Öte yandan, parametre tahmini ile ilgili sorunlara neden olmak için yeterince yüksek bir korelasyona sahip iki değişkeniniz varsa, tahmin açısından çok fazla şey kaybetmeden neredeyse ikisinden birini düşürebilirsiniz - çünkü iki değişken aynı bilgiyi taşır. . Tabii ki, bu sadece problemin iki yüksek korelasyonlu bağımsızlığa bağlı olması durumunda işe yarar. Sorun, birlikte neredeyse ortak olan ikiden fazla değişken içerdiğinde (ikisi sadece ılımlı korelasyonlara sahip olabilir), muhtemelen diğer yöntemlerden birine ihtiyacınız olacaktır.


2
(+1) Şimdi sorun, OP'nin modele ne kadar değişken girdiğini göstermemesidir, çünkü çok sayıda olması durumunda, örneğin büzülme ve değişken seçimi yapmak, örneğin elastik ağ ölçütü (kombinasyondur) Kement ve Sırtı cezaları.
chl

3

İşte Stephan'ın cevabından ilham alan başka bir düşünce :

Bağlantılı regresörlerin bazıları anlamlı bir şekilde ilişkiliyse (örneğin, farklı zeka ölçütleri, sözel, matematik vb.), Aşağıdaki değişkeni kullanarak aynı değişkeni ölçen tek bir değişken oluşturabilirsiniz:

  • Regresörleri toplayın (regresörler bir bütünün bileşenleri ise uygun, örneğin sözel IQ + matematik IQ = Genel IQ)

  • Regresörlerin ortalaması (eğer regresörler aynı temel yapıyı ölçüyorsa uygun, örneğin, sol ayakkabının boyutu, ayakların uzunluğunu ölçmek için sağ ayakkabının boyutu)

  • Faktör analizi (ölçümlerdeki hataları hesaba katmak ve gizli bir faktörü çıkarmak için)

Daha sonra tüm ilişkili regresörleri bırakabilir ve bunları yukarıdaki analizden çıkan bir değişkenle değiştirebilirsiniz.


1
Bu, regülatörlerin hepsi aynı ölçekte ölçülürse anlamlıdır. Psikolojide, çeşitli alt ölçekler genellikle farklı ölçeklerde ölçülür (ve hala ilişkilendirilir), bu nedenle ağırlıklı toplam veya ortalama (burada gerçekten aynı olan) uygun olacaktır. Ve elbette, PCA, maksimum varyans eksenlerini hesaplayarak bu tür bir ağırlıklandırma olarak görülebilir.
S. Kolassa - Monica

2

Yukarıdaki Stephan Kolassa ile aynı şeyi söyleyecektim (bu yüzden cevabını aştı). Sadece bazen çoklu doğrusallığın, bir miktar büyüklük ölçüsü ile yüksek oranda ilişkili olan geniş değişkenleri kullanmaktan kaynaklanabileceğini ve yoğun değişkenler kullanarak, yani her şeyi bir büyüklük ölçüsüne bölerek işlerin geliştirilebileceğini ekleyeceğim . Örneğin, birimleriniz ülkeler ise, bağlama bağlı olarak nüfusa, bölgeye veya GSMH'ya göre bölebilirsiniz.

Ah - ve asıl sorunun ikinci kısmına cevap vermek için: İlişkili tüm regresörlerin ürününü eklerken hiçbir durumun iyi bir fikir olacağını düşünemiyorum . Nasıl yardımcı olur? Bu ne anlama geliyor?


İlk fikrim,
regresörlerin

İkili etkileşimi hesaba katmak genellikle iyi bir fikirdir. Fakat hepsi lof değil: Mantıklı olanı düşünmeniz gerekir!
kjetil b halvorsen

1

Bu konuda uzman değilim, ancak benim ilk düşüncem yordayıcı değişkenleri üzerinde temel bir bileşen analizi yapmak, sonra bağımlı değişkeninizi tahmin etmek için ortaya çıkan temel bileşenleri kullanmak olacaktır.


İyi fikir. (Bununla birlikte, kategorik tahmin edicilere iyi genelleşmiyor.) Diğer birçok stratejinin de bu açıdan yorumlanabileceğinden şüpheleniyorum. Örneğin, bir alt kümesini seçmek kestiricilerin kPCA'daki en büyük özvektörler.
whuber

Açıklayıcı bir yaklaşımda, o zaman lineer kombinasyonunuzun nasıl olduğunu yorumlamanız gerekir. pdeğişkenler sonuçla ilgilidir ve bu bazen zor olabilir.
chl

@chl İyi nokta. Ancak ana bileşenler doğrusal kombinasyonlar olduğu için, yorumlanabilir bir doğrusal model elde etmek için takılı regresyon modelini (= bir doğrusal dönüşüm) bileşenlerin üzerine yansıtma ile (= başka bir doğrusal dönüşüm) oluşturmak kolaydır (= bir doğrusal dönüşüm) tüm orijinal değişkenleri içeren. Bu, biraz ortogonalizasyon tekniklerine benzer. Ayrıca, Srikant'ın en son tekliflerinin (regresörlerin toplamı veya ortalaması) asıl özvektöre yaklaştığını, ancak benzer açıklayıcı zorluklar yarattığını unutmayın.
whuber

@whuber Evet, puanlarınızın ikisine de katılıyorum. Kapsamlı olarak PLS regresyon ve CCA kullandım, bu durumda her iki taraftaki lineer kombinasyonlarla uğraşmak zorundayız (St. Bir maksimum kovaryans veya korelasyon kriteri); Çok sayıda prediktör ile, kanonik vektörleri yorumlamak acı vericidir, bu nedenle sadece en fazla katkıda bulunan değişkenlere bakarız. Şimdi, çok fazla belirteç olmadığını hayal edebiliyorum, böylece tüm argümanlarınız (@Stephan, @Mike) mantıklı geliyor.
chl

-1

Yollarından biri korelasyon etkilerini azaltmak için regressors standardize . Standardizasyonda, tüm regresörler kendi araçları ile çıkarılır ve ilgili standart sapmalara bölünür. Özellikle, eğerX regresyon matrisi nedir:

xbenjstbirndbirrdbenzed=xbenj-x.j¯sj

Bu bir çare değil, kesinlikle doğru yönde bir adım.


8
Doğrusal dönüşümler (bunun gibi) hiçbir zaman korelasyon katsayılarını değiştirmez. Standardizasyonun amacı, normal matrisin şartlanmasını iyileştirmektir.
whuber

1
Değişkenleri standardize etmek, bağımsız değişkenler arasındaki korelasyonu etkilemeyecek ve bu sorunla ilgili olarak düşünebileceğim herhangi bir şekilde "korelasyonun etkisini azaltmayacak".
Brett,

2
@Brett, standardizasyonun yardımcı olduğu tipik bir örnek Polinom Regresyon'dur . Her zaman regresörleri standartlaştırmanız önerilir. Standartlaştırma, korelasyon matrisini değiştirmez, ama var cov matrisini (şimdi correl matrisidir) iyi davranır (matrisin durum numarasına işaret eden @whuber tarafından koşullandırma olarak adlandırılır), IMHO.
suncoolsu

Kabul. Merkezleme, polinom veya etkileşim terimleri gibi daha yüksek terimler girerken kullanışlıdır. Burada durum böyle görünmüyor ve korelasyonlu tahminciler sorununa başka türlü yardımcı olmayacak.
Brett,

Sildim çünkü insanları yanlış cevaplarla karıştırmak istemedim. Muhtemelen moderatörler tekrar gündeme getirdi.
suncoolsu
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.