Yüksek oranda doğrusal korelasyona sahip iki öngörücü değişkenten birini kaldırabilir miyim?


18

Pearson Korelasyon Katsayısı'nı kullanarak, yüksek derecede korelasyona sahip birkaç değişkenim var ( 2 çift değişken için ρ=0.978 ve ).ρ=0.989

Nedeni bir değişken içinde kullanıldığı için bazı değişkenlerin derece ilişkilidir olan hesaplama başka değişken için.

Misal:

B=V/3000 ve E=V*D

ve E sahip ρ = 0.989BEρ=0.989

Değişkenlerden birini “atmak” mümkün mü?

Yanıtlar:


26

B ve E'nin her ikisi de V'den türetilir. B ve E açıkça birbirlerinden tam olarak "bağımsız" değişkenler değildir. Burada gerçekten önemli olan değişken V'dir. Bu durumda muhtemelen B ve E'yi göz ardı etmeli ve sadece V'yi tutmalısınız.

Daha genel bir durumda, çok yüksek derecede korelasyona sahip iki bağımsız değişkeniniz olduğunda, bunlardan birini kesinlikle kaldırmalısınız çünkü çok doğrusallık bilmecesine girersiniz ve regresyon modelinizin yüksek derecede korelasyonlu iki değişkenle ilgili regresyon katsayıları güvenilir olmayacaktır. Ayrıca, düz İngilizce'de iki değişken çok yüksek derecede ilişkiliyse, regresyon modelinize neredeyse tamamen aynı bilgileri verecektir. Ancak, her ikisini de ekleyerek aslında modeli zayıflatıyorsunuz. Artımlı bilgi eklemiyorsunuz. Bunun yerine, modelinizi gürültü ile aşıyorsunuz. İyi bir şey değil.

İlişkili değişkenleri modelinizde tutmanın bir yolu regresyon yerine bir Temel Bileşen Analizi (PCA) modeli kullanmaktır. PCA modelleri, çoklu doğrusallıktan kurtulmak için üretilmiştir. Değişim, modelinizde genellikle sadece matematiksel yapılar olan ve mantıklı terimlerle anlaşılmaz olan iki veya üç temel bileşenle sonuçlamanızdır. Bu nedenle, sonuçlarınızı yönetim, düzenleyiciler vb. Gibi dış bir kitleye sunmak zorunda kaldığınızda PCA sıklıkla bir yöntem olarak terk edilir. PCA modelleri açıklanması çok zor olan şifreli kara kutular oluşturur.


1
(+1) PCA'nın açıklaması için.
steffen

1
Teşekkürler, bu harika bir açıklama oldu. PCA hakkında bir şeyler duydum ve okudum, ancak bu, aldığım "regresyon" lisansüstü dersinin son projesi için ve profesör sadece LR kullanmamızı istiyor. Ne olursa olsun, PCA'nın açıklamasını gerçekten takdir ediyorum ve muhtemelen eğlenmek için kullanacağım.
TheCloudlessSky

3
Bazı durumlarda bu cevaptaki öneriler işe yaramaz. Örneğin, gerçek ilişki Y = B + E = V / 3000 + V * D ise ne olur? Daha sonra değişkenler, veri kümesindeki V ve D aralıkları nedeniyle saf bir kaza olan (veya olabilecek) yüksek korelasyona sahip olurken, B veya E'den birini atmak yanlış modele neden olur. Kısacası, "bağımlılık" genel olarak bir modelden bazı değişkenleri kaldırmak için geçerli bir neden değildir; kuvvetle bağımlı değişkenlerin dahil edilmesi mutlaka bir modeli "zayıflatmaz"; PCA her zaman çıkış yolu değildir.
whuber

@whuber, yorumlarınıza katıldığımdan emin değilim. "Bağımlılık" genel olarak bazı değişkenlerin regresyon modelinden kaldırılmasında oldukça geçerli bir neden olduğunu düşünürdüm. Aksi takdirde, regresyon katsayılarınız güvenilir olamaz. Regresyon için sorunlu kullanacağınız örnekte, basit bir çözüm tüm ifadeyi (V / 3000 + V * D) tek bir değişken olarak kullanmaktır.
Sympa

3
Daha genel olarak, model beta1 * (V / 3000) + beta2 * (V D) ise, bunu yapamazsınız: başka bir deyişle, öneriniz katsayılar arasında doğrusal bir kısıtlama bildiğinizi varsayar. Regresyon katsayılarının * nispeten büyük VIF'lere veya standart hatalara sahip olabileceği doğrudur , ancak yeterli miktarda veriyle - veya iyi seçilmiş gözlemlerle - tahminler yeterince güvenilir olacaktır . Bu nedenle, bir sorun olduğunu kabul ediyoruz ve aslında çözümünüze göz önünde bulundurmanız gereken birkaç alternatiften biri olarak katılıyorum . Ben bunu ortaya çıkardığınız kadar genel ve gerekli olduğuna katılmıyorum.
whuber

7

İşte makine öğreneninin bakış açısından bir cevap, ancak bunun için gerçek istatistikçiler tarafından dövülmekten korkuyorum.

Değişkenlerden birini “atmak” mümkün mü?

Soru, tahmin için ne tür bir model kullanmak istediğinizdir. Örneğin bağlıdır ...

  • öngörücülere sahip model olabilir mi? Örneğin, NaiveBayes teorik olarak ilişkili değişkenlerle ilgili problemlere sahip olsa da, deneyler hala iyi performans gösterebileceğini göstermiştir.
  • model öngörme değişkenlerini nasıl işler? Örneğin, B ve V arasındaki fark bir olasılık yoğunluğu tahmininde normalleştirilecektir, belki D ve varyansına bağlı olarak E ve V için aynıdır (öfori daha önce söylendiği gibi)
  • B ve E'nin hangi kullanım kombinasyonu (bir, hiçbiri, her ikisi de) dikkatli bir çapraz değerleme + bir tutma seti üzerinde bir test ile tahmin edilen en iyi sonucu verir?

Bazen öğrenciler, bir dizi belirleyicinin en iyi aritmetik kombinasyonunu bulmak için genetik optimizasyon gerçekleştiririz.


7

B, V'nin doğrusal bir dönüşümüdür. E, V ve D arasındaki bir etkileşimi temsil eder. Y = Kesişim + V + D + V: D olan bir model belirtmeyi düşündünüz mü? @ Euphoria83'ün önerdiği gibi, D'de çok az değişiklik olduğu görülmektedir, bu yüzden sorununuzu çözmeyebilir; ancak en azından V ve D'nin bağımsız katkılarını netleştirmelidir. Hem V hem de D'yi önceden ortaladığınızdan emin olun.


4
+1: Bu öneri sadece söz konusu probleme iyi bir yaklaşım olmakla kalmaz, değişkenleri atmanın kollearlık problemlerini çözmek için her zaman doğru (hatta iyi) bir yaklaşım olmadığını gösterir.
whuber

0

D sabit değilse, B ve E, D'deki farklılıklar nedeniyle etkili bir şekilde iki farklı değişkendir. Yüksek korelasyon, D'nin eğitim verileri boyunca pratik olarak sabit olduğunu gösterir. Bu durumda, B veya E'yi atabilirsiniz.


1
Kuyu D, diğer değişkenler tarafından hesaplanan başka bir denklemdir :D=n12*N-2n2. Bu hala geçerli mi?
TheCloudlessSky

B veya E'yi atar ve eşdeğeri olarak değerlendirirseniz, V'nin gerçekten önemli olan tek şey olduğunu zımnen kabul edersiniz. Eğer durum böyleyse, yorumu açık olduğu için B'yi modelde tutmanız daha iyi olur. Ayrıca, E'yi elinde tutarsanız, ancak D aslında sınırlı bir varyansa sahipse, sonuçlarınızın yorumunun geçerliliği, farklı D değerleri için (her zamankinden daha fazla) daha şüpheli olacaktır.
russellpierce
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.