Bir korelasyon matrisindeki korelasyonun istatistiksel önemini gösteren korelasyon katsayısı eşiği


10

Her veri noktası 14 karakteristik içeren 455 veri noktası içeren bir veri kümesinin korelasyon matrisini hesapladım. Yani korelasyon matrisinin boyutu 14 x 14'tür.

Korelasyon katsayısının değeri için, bu özelliklerin ikisi arasında anlamlı bir korelasyon olduğunu gösteren bir eşik olup olmadığını merak ediyordum.

-0.2 ile 0.85 arasında bir değere sahibim ve önemli olanların 0.7'nin üzerinde olan değerler olduğunu düşünüyordum.

  • Korelasyon katsayısı için eşik için dikkate alınması gereken genel bir değer var mı veya sadece bağlamı araştırdığım veri türüne bağlı mı?


@ user603 İyi yakalama: pratik olarak aynı soru. Buradaki yenilik, önemli korelasyon testlerinin "veri türüne" (okuma: veri dağıtımı) bağlı olup olamayacağını sormaktır. Umarım cevaplar eski zeminden geçmek yerine bu yöne odaklanır.
whuber

Yanıtlar:


8

Korelasyonlar için önem testleri

Boş hipotezin doğru olduğu varsayılarak örnek korelasyondan daha büyük veya daha büyük bir korelasyon elde etme olasılığını gösteren, bireysel korelasyonlara uygulanabilecek istatistiksel anlamlılık testleri vardır.

Kilit nokta, istatistiksel olarak anlamlı bir korelasyon katsayısı oluşturan şeyin aşağıdakilere bağlı olmasıdır:

  • Örnek boyutu : daha büyük örnek boyutları daha küçük eşiklere yol açar
  • alfa : genellikle .05 olarak ayarlanırsa, daha küçük alfalar istatistiksel anlamlılık için daha yüksek eşiklere yol açar
  • tek kuyruklu / iki kuyruklu test : İki kuyruklu olacağını tahmin ediyorum, bu muhtemelen önemli değil
  • korelasyon katsayısı türü : Sanırım Pearson'u kullanıyorsun
  • x ve y'nin dağılım varsayımları

Alfa'nın .05 olduğu, iki kuyruklu test kullanılarak, Pearson korelasyonu ile ve normalliğin en azından yeterli bir yaklaşım olduğu yaygın durumlarda, kesmeyi etkileyen ana faktör numune boyutudur.

Önem eşiği

Sorunuzu yorumlamanın bir başka yolu da, bir korelasyonun istatistiksel olarak anlamlı olup olmadığıyla değil, pratikte önemli olup olmadığıyla ilgilendiğinizi düşünmektir.

Bazı araştırmacılar, korelasyon katsayılarının anlamını yorumlamak için temel kurallar önermişlerdir, ancak bu temel kurallar alana özeldir.

Çoklu önem testi

k(k-1)/2k14(13)/2=9191*.05=4.55

@ User603'ün işaret ettiği gibi, bu sorunlar bu önceki soruda iyi tartışılmıştır .

Genel olarak, bir korelasyon matrisini daha üst düzey yapıya odaklanmak için yorumlarken faydalı buluyorum. Bu, korelasyon matrisindeki genel kalıplara bakarak gayri resmi bir şekilde yapılabilir. Bu, PCA ve faktör analizi gibi teknikler kullanılarak daha resmi olarak yapılabilir. Bu tür yaklaşımlar, çok anlamlılık testiyle ilişkili sorunların çoğundan kaçınır.


1

Seçeneklerden biri simülasyon veya permütasyon testi olabilir. Verilerinizin geldiği dağılımı biliyorsanız, o dağılımdan simüle edebilirsiniz, ancak tüm gözlemler bağımsızdır. Dağılımı bilmiyorsanız, değişkenlerinizin her birine birbirinden bağımsız olarak izin verebilirsiniz ve bu size her değişkenin aynı genel marjinal dağılımını verecektir, ancak herhangi bir korelasyon kaldırılmıştır.

Yukarıdakilerden birini yapın (örnek boyutunu ve matris boyutlarını aynı tutarak) bir sürü kez (10.000 veya daha fazla) yapın ve maksimum mutlak korelasyona veya ilginizi çekebilecek başka bir yüksek kantil'e bakın. Bu size gerçek hipotezden, gerçek gözlemlenen korelasyonlarınızın maksimumunu (ve diğer yüksek ilgi çekici miktarları) karşılaştırabileceğiniz dağılımı verecektir.


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.