Kollearlığı tespit etmek için farklı yaklaşımların faydaları nelerdir?


11

OLS regresyonumda eşdoğrusallığın bir sorun olup olmadığını tespit etmek istiyorum. Varyans enflasyon faktörlerinin ve durum endeksinin yaygın olarak kullanılan iki önlem olduğunu anlıyorum, ancak her yaklaşımın esası ya da puanların ne olması gerektiği konusunda kesin bir şey bulmakta zorlanıyorum.

Hangi yaklaşımın yapılacağını ve / veya hangi puanların uygun olduğunu gösteren önemli bir kaynak çok faydalı olacaktır.

Benzer bir soru "Belirli bir çoklu-doğrusallık ölçüsünü tercih etmek için bir neden var mı?" ama ideal olarak alıntı yapabileceğim bir referanstan sonra geliyorum.


4
Çarpışmanın büyük ölçüde bir derece meselesi olduğunu unutmayın , bu yüzden güzel, alıntılanabilir bir sayı veren bir metin bulsanız bile, "sorun yok" için bir kesinti değeri olarak ele almanız gereken bir şey değil, bir sorunumuz var ".
Silverfish

4
@Silverfish iyi tavsiyelerde bulunur. Belsley, Kuh ve Welsch, aynı zamanda, mevcut olduğunda bile, kollektifliğin mutlaka zararlı olmadığını vurgulamaktadır: Bunun analiziniz için gerçekten bir soruna neden olup olmadığını belirlemelisiniz.
whuber

Yanıtlar:


11

Belsley, Kuh ve Welsch olduğu sorusuna bu tür gitmek için metni. Bunlar, "Tarihi Perspektif" başlıklı bir bölümde daha eski teşhislerin kapsamlı bir şekilde tartışılmasını içermektedir. VIF konusunda yazıyorlar

... verilerinin ortalandığını ve birim uzunluğa sahip olacak şekilde ölçeklendiğini varsayarsak, korelasyon matrisi basitçe . ...XRXX

Biz düşünen . , nin köşegen elemanlarına genellikle varyans enflasyon faktörleri denir, ve tanı değerleri ilişkisinden sonra gelir. burada , kalan açıklayıcı değişkenler üzerinde gerileyen çoklu korelasyon katsayısıdır . Açıkça yüksek bir VIF, birliğe yakın bir olduğunu gösterir ve bu nedenle işaret eder. Bu nedenle, bu önlem, genel olarak müşterekliğin bir göstergesi olarak kullanılmaktadır. gibi zayıf yönleriR1=(XX)1R1riiVIFi

VIFi=11Ri2
Ri2XiRi2R, var olan birçok yakın bağımlılığı birbirinden ayırt edememesi ve yüksek olarak kabul edilebilecek ve düşük olarak değerlendirilebilecek VIF değerleri arasında ayrım yapmak için anlamlı bir sınır bulunmaması nedeniyle yatmaktadır.

(veya ) analiz etmek yerine BKW, Tekil Değer Ayrışmasının dikkatli ve kontrollü bir incelemesini önerir . Bunlar en küçük tekil değerlerin en büyük oranı olduğunu göstererek bu motive durum numarası arasında ve durum numarası (sıkı zamanlarda) içerir nasıl regresyon tahminlerinin hesaplanması hataları işlem çoğaltılma sınırlarını göstermektedir. parametre tahminlerinin varyanslarının tekil değerlerle ilişkili bileşenlere yaklaşık olarak ayrıştırılmasını . Bu ayrışmanın gücü (çoğu durumda) doğayı ortaya çıkarma yeteneğinde yatarRR1XXβ^i sadece varlığını göstermek yerine kollearlık.

Yüzlerce değişkeni olan regresyon modelleri yapan herkes bu özelliği takdir edecektir! Yazılımın "verileriniz doğru, ilerleyemiyorum" ve hatta "verileriniz doğru, aşağıdaki değişkenleri atıyorum" demek için bir şey var. " değişken grubunun hesaplamalarda kararsızlığa neden olduğunu söyleyebilmesi çok daha yararlı bir şey : bu değişkenlerden hangisini onsuz yapabileceğinizi veya dikkate alabileceğinizi görün sayılarını azaltmak için temel bileşenler analizi yapmak. "Xi1,,Xik

Nihayetinde, BKW kollearliği teşhis etmeyi öneriyor

... aşağıdaki çift durum:

  1. Yüksek bir durum indeksine sahip olduğuna karar verilen ve bununla ilişkili tekil bir değer
  2. İki veya daha fazla tahmini regresyon katsayısı varyansı için yüksek varyans-ayrışma oranları .

(1) 'de büyük kabul edilen koşul indekslerinin sayısı (örneğin, büyük ) veri matrisinin sütunları arasındaki yakın bağımlılıkların sayısını tanımlar ve bu yüksek koşullu indekslerin büyüklükleri, göreceli "sıkılıklarının bir ölçüsünü sağlar. " Ayrıca, her bir yüksek koşul indeksi ile ilişkili büyük varyans-ayrışma oranlarının (2'den büyük ) saptanması, buna karşılık gelen yakın bağımlılıkta yer alan değişkenleri ve bu oranların yüksekliğini durum indeksi, karşılık gelen regresyon tahmininin eş-doğrusallık mevcudiyeti ile ayrılma derecesinin bir ölçüsünü sağlar.30X0.5


10
  • Varyans Enflasyon Faktörlerinin (VIF) anlaşılması kolaydır. Tasarım matrisi sütunlarınızın her birini diğerlerine bastırın , bu modelin 2'sini not edin, hesaplayın ve işte devam edin. 10'luk bir VIF, diğer tüm regresörleri kullanarak bir öngörücünün varyansının% 90'ını açıklayabileceğiniz anlamına gelir. Bu tipik olarak eşzamanlılık için başparmak eşiği kuralı olarak kullanılır.R21/(1R2)

    Bununla birlikte, tipik olarak uygulandığı şekliyle VIF'ler, kesişme genellikle bu "yardımcı" regresyonlara sessizce dahil edildiğinden, kesişme ile eş-doğrusallıktan bahsedemez. Ayrıca, bir regresörün yüksek bir VIF'si varsa, kollearlıktan hangi diğer regresörlerin sorumlu olduğunu hemen bilmezsiniz . Yardımcı regresyonlardaki standart katsayılara bakmanız gerekir.

  • Belsley, Kuh & Welsch'in (Belsley, DA; Kuh, E. & Welsch, RE Regresyon Teşhisi: Etkili Verileri ve Kollektifliğin Kaynaklarını Belirleme. John Wiley & Sons, 1980) durum indeksleri ve eşdüzey ayrışma oranlarını anlamak çok daha zordur . John Wiley & Sons, 1980) . Birkaç yıl önce bunlarla çalışıyordum, ama onları bir tazeleme ;-) almadan burada açıklamaya çalışmayacağım.

    Bu teşhis do kesişmesine ile doğrudaşlığa tespit izin verir. Ve belirli bir regresörün eşbiçimliğinden hangi diğer regresörlerin sorumlu olduğunu bulmak için kollearlık ayrışma oranlarını araştırabilirsiniz.


Teşekkürler - çok yararlı - şans eseri 10'dan fazla başparmak kuralından daha fazla bir VIF için bir alıntı olduğunu biliyor musunuz ... Ben bolluk ek ders notları bulabilirim, ancak yayınlanan hiçbir şey bulamıyorum .. .
Girne

@ kyrenia "10'dan büyük" önerilen gördüğüm tek eşiği olmaktan uzaktır! Alanlar arasında mı, yoksa yazarlar arasında bir farklılık olup olmadığını merak ediyorum.
Silverfish

3
@Silverfish Kesinlikle alanlar arasında farklılık vardır. Bana fazla bir VIF'nin düzeltilmesi gerektiğini öğreten deneysel tasarım insanlarına söylendi ! Gözlemsel çalışmalar için, regresörlerin sayısına bağlı olarak da varyasyon olmalıdır: ne kadar çok olursa, VIF'ler sadece şans dalgalanması nedeniyle büyür. Birçok durumda yüzlerce değişkenle, sadece veya daha büyük VIF'lere katlanmak zorunda kalacaksınız . Muhtemelen bu gibi durumlarda böyle bir varyans enflasyonunu telafi etmek için yeterli veri vardır. 2100
whuber

@whuber Bunun için teşekkürler. Bu çok ilginç bir gözlem ve OP tarafından sorulan soru ile son derece alakalı: StackExchange sistemindeki yorumların "ikinci derece" önemi göz önüne alındığında, bunu mükemmel cevabınıza dahil etmeyi düşünmelisiniz.
Silverfish

6

Alıntı için yaygın olarak bulunan referanslar için, 117. sayfadaki Faraway kitabı , koşul numaralarına dayalı sorunları tespit etmek için 30'un üzerinde bir kural sağlar ve İstatistiksel Öğrenmeye Giriş , sayfa 101, 5 veya 10'un üzerindeki VIF değerlerinin bir sorunu gösterdiğini söylüyor .

Muhtemelen, çoklu bağlantıyı tanımlamak için hangi yöntemi kullandığınızdan daha önemlidir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.