Kollearlıktan ne zaman bahsedebiliriz


16

Doğrusal modellerde, açıklayıcı değişkenler arasında bir ilişki olup olmadığını kontrol etmeliyiz. Eğer çok fazla korelasyon gösterirlerse, o zaman eşbiçimlilik vardır (yani, değişkenler kısmen birbirlerini açıklar). Şu anda sadece açıklayıcı değişkenlerin her biri arasındaki ikili korelasyona bakıyorum.

Soru 1: Çok fazla korelasyon olarak ne sınıflandırır? Örneğin, 0.5 arası bir Pearson korelasyonu çok mu fazla?

Soru 2: Korelasyon katsayısına bağlı olarak iki değişken arasında eşdoğrusallık olup olmadığını tam olarak belirleyebilir miyiz veya diğer faktörlere bağlı mı?

Soru 3: İki değişkenin dağılım grafiğinin grafiksel kontrolü, korelasyon katsayısının gösterdiği şeye bir şey katıyor mu?


2
3+ değişken arasındaki eşdeğerlik (tekillik) sadece yüksek ikili korelasyonlara indirgenmez. "Çoklu bağlantı" etiketli sorular için sitede arama yapın. Ayrıca, cevabımı okumanızı tavsiye ederim: stats.stackexchange.com/a/70910/3277 .
ttnphns

Yanıtlar:


15
  1. Çok fazla eşzamanlılık ile çok eşzamanlılık arasında 'parlak çizgi' yoktur ( kesinlikle çok fazla olması önemsiz durumlar hariç ). Analistler tipik olarak iki değişken arasında çok fazla eşzamanlılık olarak düşünmezler . Çoklu bağlantı ile ilgili genel bir kural, VIF 10'dan büyük olduğunda çok fazla şeye sahip olmanızdır (bunun nedeni muhtemelen 10 parmağımız olmasıdır, bu yüzden değer için bu tür başparmak kurallarını alın). Bunun anlamı, eğer ise iki değişken arasında çok fazla eşbiçimliğinizin olması olacaktır . Cevabımda VIF ve çoklu doğrusallık hakkında daha fazla bilgi edinebilirsiniz: Çoklu regresyon modelinde ilişkili öngörücülere sahip olmanın etkisi nedir?r=1.0r=.50r.95

  2. Bu, "tam olarak belirleme" ile ne demek istediğinize bağlıdır. İki değişken arasındaki korelasyon olsaydı, çoğu veri analisti sorunlu bir eşbiçimliğiniz olduğunu söylerdi. Bununla birlikte, hiçbir iki değişkenin bu kadar yüksek bir ikili korelasyona sahip olmadığı ve yine de tüm değişkenler grubu arasında gizlenmiş sorunlu bir eşbiçimliğin olduğu birden fazla değişkeniniz olabilir. VIF'ler ve koşul numaraları gibi diğer metriklerin işe yaradığı yer burasıdır. Bu konuyla ilgili daha fazla bilgiyi şu adresten okuyabilirsiniz: Belirli bir çok doğrusallık ölçüsünü tercih etmek için bir neden var mı?r.95

  3. Sadece sayısal özetler / test sonuçlarına değil, verilerinize bakmak her zaman akıllıdır. Buradaki kanonik referans Anscomb'un dörtlüsüdür .


3

Üç soruyu benim ele alacağım

Soru 1 Çok fazla korelasyon olarak ne sınıflandırılır? Örneğin: 0.5'lik bir pearson korelasyonu çok mu fazla?

Birçok yazar (çoklu) eşbiçimliğin bir sorun olmadığını savunmaktadır. Konu hakkında oldukça asitli bir görüş için buraya ve buraya bir göz atın . Sonuç olarak, çoklu-doğrusallık, hipotez testi üzerinde, daha düşük (etkili) bir numune boyutuna sahip olmaktan başka bir etkiye sahip değildir. Örneğin, bir regresyon yaparsanız, regresyon katsayılarını yorumlamanız zor olacaktır, ancak bunu yaparsanız herhangi bir temel varsayımı ihlal etmezsiniz.

Soru 2 Korelasyon katsayısına bağlı olarak iki değişken arasında eşzamanlılık olup olmadığını tam olarak belirleyebilir miyiz veya diğer faktörlere bağlı mı?

İki değişken arasındaki korelasyonu ölçmenin, Pearson korelasyon katsayısını hesaplamaktan (eğer doğrusallığı varsayarsanız ve görünüşe göre böyle yaparsanız) Spearman'ın rütbesine , mesafe korelasyonuna ve hatta veri kümenizde PCA yapmaya kadar çeşitli yollar olduğunu düşünüyorum . Ama bu sorunun cevabını benden daha bilgili insanlara bırakardım.

Soru 3 İki değişkenin dağılım grafiğinin grafiksel kontrolü, korelasyon katsayısının gösterdiği şeye bir şey katıyor mu?

IMO, cevap ses yok.


3
IMHO, (3) 'ün cevabı tam tersine çok güçlü bir evet: korelasyon katsayısı bir ilişkinin doğrusallığının sadece tek bir sayısal değerlendirmesini sunabilirken, dağılım grafiğine hızlı bir bakış, bu konuda çok sayıda ek bilgi sağlayacaktır. önceden beklenmeyen davranışlar da dahil olmak üzere ilişki. Bununla birlikte, bu soru setindeki asıl ilgi, üç veya daha fazla değişken arasındaki ilişkilerin nasıl değerlendirileceğidir (aslında (3) nasıl ifade edildiğine rağmen) ve bu durumda bir dağılım grafiği matrisi bile @ttnphns'ın belirttiği gibi her şeyi ortaya çıkarmaz.
whuber

1
(1) ile ilgili olarak, referansınızı (Dave Gile'nin bloguna) farklı bir şekilde okudum: çoklu bağlantıların resmi testinin yanlış yönlendirildiğini savunuyor . Çok doğrusallığın bir sorun olmadığını iddia ettiğini görmüyorum.
whuber

Dave Gile'ın cevabını anladığım kadarıyla, çoklu-doğrusallığın sonuçları etkilemesinin tek yolunun, daha küçük bir örneklem büyüklüğü olması olacaktır. Bu nedenle, küçük örneklem büyüklüğünü test etmenin bir anlamı olmadığı gibi, çoklu doğrusallığın etkisini test etmek de anlamsızdır. Ama bu konudaki fikrinizi duymaktan memnuniyet duyarım, belki yanlış anladım.
pedrofigueira

Daha büyük bir numune boyutuna ihtiyaç duyulması çoğu çalışma için büyük bir etki olabilir! Tartışıldığı (kadar yakın kolineer ilgilidir model oluşturma ve değişken seçimi, bir daha ince etkisi diğerlerinin yanında gibi konuda) stats.stackexchange.com/questions/50537 ve stats.stackexchange.com/a/28476/919 . Ama aynı şeylerden bahsettiğimizden emin olalım: Giles, bağımsız değişkenler rastgele örneklenmiş gibi, çoklu doğrusallık biçiminin resmi testlerini tartışıyor. Burada endişe , bir modelin yeteneklerini ve sınırlamalarını anlamak için çoklu doğrusallık teşhisi kullanmaya odaklanmış gibi görünüyor .
whuber

1

Ortak doğrusallığı değerlendirmenin yaygın bir yolu varyans enflasyon faktörleri (VIF'ler). Bu, R'de 'araba' paketindeki 'vif' işlevi kullanılarak gerçekleştirilebilir. Bu, bir değişken ile modeldeki değişkenlerin geri kalanı arasındaki korelasyonu aynı anda değerlendirdiğinden, yalnızca iki değişken arasındaki korelasyonlara bakma avantajına sahiptir. Daha sonra modeldeki her bir tahminci için size tek bir puan verir.

Yukarıda belirtildiği gibi, sert ve hızlı bir kesme yoktur, ancak VIF puanlarının 5-10 arasında olduklarında genellikle sorunlu olduğuna karar verilir. Bunun için alana özel kurallar kullanıyorum. Ayrıca, korelasyonlu öngörücülerin kullanımı konusunda mutlaka geçersiz bir şey yoktur (mükemmel bir şekilde ilişkilendirilmedikleri sürece). Efektleri ayırmak için daha fazla veriye ihtiyacınız olacak. Yeterli veriye sahip olmadığınızda, ilişkili öngörücülerin parametre tahminlerinde büyük belirsizlikler olacaktır ve bu tahminler yeniden örneklemeye duyarlı olacaktır.

Sorularınızı özel olarak cevaplamak için:

  1. Korelasyon katsayıları kullanmayın. modelin VIF'lerini tüm öngörücülerle kullanın ve etkileşim yok. 5-10'luk VIF'ler çok fazla korelasyon gösterir, spesifik kesiminiz modelle ne yapmanız gerektiğine bağlıdır.

  2. Modeldeki diğer öngörücülere bağlıdır, bu yüzden VIF'lerin kullanılması yararlıdır.

  3. Hayır! İstatistikler, saçılma grafiğiyle neleri gözlediğinizi daha iyi ölçecektir. Tahmincilerinizi birbirine düşürürken OLS varsayımlarının süper bir ihlali olmadıkça.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.