Pearson'un normallik ihlallerine olan korelasyon katsayısı ne kadar sağlamdır?


20

Belirli değişken türlerine ilişkin veriler, belirli popülasyonlarda ölçüldüğünde normal değildir (örn. Majör Depresif Bozukluğu olan bir popülasyonda depresyon seviyeleri). Pearson'un normallik olduğunu varsayarsak, normallik dışı koşullar altında test istatistiği ne kadar sağlamdır?

Ben korelasyon katsayıları için istiyorum bir dizi değişken var, ama bu değişkenlerin bazıları için Z çarpıklığı p <.001 (ve nispeten küçük bir örnek içindir) önemlidir . Bazı dönüşümleri denedim, ama dağılımlardaki gelişmeler en iyi ihtimalle marjinal.

Parametrik olmayan analizlere bağlı kalmak zorunda mıyım? Ve sadece korelasyonlar için değil, diğer analiz türleri için de mi?


Bekle, Pearson korelasyon katsayısı normallik varsayıyor mu? Sanmıyorum ve normal olmayan veriler üzerinde kullanıyorum. Normal olmayan bazı durumlarda daha sık gerçekleşen bazı şeylere karşı sağlam değildir, ancak Pearson'un korelasyon katsayısını kullanmayla ilgili hiçbir sorun görmediğim birçok normal olmayan durum vardır.
Douglas Zare

1
Pearson'un korelasyonunun normallik olduğunu varsayması, birçok istatistik metninin iddia ettiği şeydir. Başka yerde, normalliğin Pearson's r için gereksiz bir varsayım olduğunu duydum. Analizleri yürüttüğümde, hem Pearson hem de Spearman nispeten benzer sonuçlar üretir.
Archæopteryx

Spearman sıra korelasyon katsayısı, normal olmayan sıralamaya uygulanan Pearson korelasyon katsayısıdır. Hala Pearson'un normallik gerektirdiğine inandığını bilmiyorum. Belki çok değişkenli normal dağılımda kullanmanız durumunda birkaç ekstra şey söyleyebilirsiniz.
Douglas Zare

Sadece basit iki değişkenli korelasyonlar için kullanıyorum. Neden normalliğin gerekli olduğu iddia edildiğinden emin değilim. Okuduğum istatistik metinleri, normalliği her zaman Pearson korelasyonunun bir varsayımı olarak listeler ve normal olmayan durumun geçerli olduğu koşullar için Spearman'ı kullanmanızı önerir.
Archæopteryx

Yanıtlar:


20

Kısa cevap: Çok sağlam değil. Korelasyon bir ölçüsüdür lineer bağımlılık ve bir değişken zaman olamaz diğer (ve hala verilmiş marjinal dağılıma sahip), sahip olamaz mükemmel (pozitif veya negatif) korelasyon doğrusal fonksiyonu olarak yazılabilir. Aslında, olası korelasyon değerleri ciddi şekilde kısıtlanabilir.

Sorun şu ki, nüfus korelasyonu daima ile 1 arasında olmakla birlikte , elde edilebilecek kesin aralık büyük ölçüde marjinal dağılımlara bağlıdır. Hızlı bir kanıt ve tanıtım:11

Ulaşılabilir korelasyon aralığı

Eğer dağıtım işlevi vardır , H ve marjinal dağılım fonksiyonları F ve G için bazı oldukça güzel alt ve üst sınırları vardır H , H - ( x , y ) H ( x , y ) H + ( x , y ) , Fréchet sınırları olarak adlandırılır. Bunlar H - ( x , y )(X,Y)HFGH

H(x,y)H(x,y)H+(x,y),
(Kanıtlamaya çalışın; çok zor değil.)
H(x,y)=max(F(x)+G(y)1,0)H+(x,y)=min(F(x),G(y)).

U(X,Y)=(F(U),G(U))(F(U),G(1U))

Cov(X,Y)=H(x,y)F(x)G(y)dxdy,
HH+HYX

Örnekler

İşte birkaç örnek (kanıt olmadan):

  1. XY(X,Y)YX

    Y=μY+σYXμXσX.
    11XY
  2. XYYY=abXabYXY[1/e,1][0.37,1]

  3. XY

    ±1e10.76.

Tüm sınırların popülasyon korelasyonu için olduğunu unutmayın . Numune korelasyonu, özellikle küçük numuneler için sınırların dışına kolayca uzayabilir (hızlı örnek: 2 numune büyüklüğü).

Korelasyon sınırlarını tahmin etme

Eğer marjinal dağılımlardan simüle edebiliyorsanız, korelasyonun üst ve alt sınırlarını tahmin etmek oldukça kolaydır. Yukarıdaki son örnek için bu R kodunu kullanabiliriz:

> n = 10^5      # Sample size: 100,000 observations
> x = rnorm(n)  # From the standard normal distribution
> y = rlnorm(n) # From the standard lognormal distribution
>
> # Estimated maximum correlation
> cor( sort(x), sort(y) )
0.772
>
> # Estimated minimum correlation
> cor( sort(x), sort(y, decreasing=TRUE) )
−0.769

Yalnızca gerçek verilerimiz varsa ve marjinal dağılımları bilmiyorsak, yukarıdaki yöntemi kullanmaya devam edebiliriz. Gözlem çiftleri bağımlı olduğu sürece değişkenlerin bağımlı olması bir sorun değildir . Ancak birçok gözlem çiftinin olmasına yardımcı olur .

Verileri dönüştürme

YX

Burada gerçekten yaptığınız şey , marjinal dağılımlara bağlı olmayan yeni bir bağımlılık ölçütü yaratmak ; yani, kopula tabanlı bir bağımlılık ölçüsü oluşturuyorsunuz. Zaten böyle bir önlem var, Spearman'ın  ρ ve Kendall'ın  τ en tanınmışları. (Bağımlılık kavramlarıyla gerçekten ilgileniyorsanız, copula'lara bakmak kötü bir fikir değildir.)

Sonuç olarak

Bazı son düşünceler ve tavsiyeler: Sadece korelasyona bakmanın büyük bir sorunu vardır: Düşünmeyi bırakmanızı sağlar. Öte yandan, saçılma çizimlerine bakmak genellikle düşünmeye başlar . Benim ana tavsiyem bu nedenle dağılım grafiklerini incelemek ve bağımlılığı açıkça modellemeye çalışmak olacaktır.

Bununla birlikte, basit bir korelasyon benzeri ölçüme ihtiyacınız varsa, sadece Spearman'ın ρ'sını (ve ilişkili güven aralığı ve testleri) kullanacağım  . Menzili sınırlı değildir. Ancak monoton olmayan bağımlılığın çok farkında olun. Korelasyona Wikipedia makalesi olası sorunları gösteren güzel araziler bir çift vardır.


1
+1 Bu çok hoş katkı, korelasyonlarla ilişkili tekrar eden birçok sorunu açıkça ele alıyor. Özellikle ilk fıkra paragrafında düşünmeyi durdurma / başlatmaya ilişkin açıklamaları takdir ediyorum.
whuber

Sağlam olmama durumu asimptotik olarak bile kalacak mı? Eğer öyleyse, wiki , "[r'nin basit bir dönüşümü için öğrencinin t dağılımı] gözlemlenen değerler normal olmasa bile yaklaşık örnek tutar", örnek boyutları çok küçük olmasa da "tutarken?
en fazla

5

Bu değişkenlerin dağılımları neye benziyor (eğilmenin ötesinde)? Eğer normal olmayan tek şey çarpıklık ise, o zaman bir tür dönüşüm yardımcı olmalıdır. Ancak bu değişkenlerin çok fazla topaklanması varsa, hiçbir dönüşüm onları normalliğe getirmeyecektir. Değişken sürekli değilse, aynı doğrudur.

İhlallerle korelasyon ne kadar sağlamdır? Anscombe Quartet'ine bir göz atın. Birkaç problemi oldukça iyi göstermektedir.

Diğer analiz türlerine gelince, analize bağlıdır. Çarpık değişkenler bir regresyondaki bağımsız değişkenler ise, hiç bir sorun olmayabilir - artıklara bakmanız gerekir.


1
Bazı değişkenlerin basıklık ile ilgili sorunları da vardır, ancak çarpıklık en büyük sorundur. Sorun değişkenleri üzerinde karekök ve log dönüşümleri denedim, ama çok fazla gelişmiyor. Aslında, dağılımlar hemen hemen aynı görünmektedir, ancak daha fazla puan yığını ile.
Archæopteryx

1
Çok tuhaf görünüyor. Söz konusu değişkenin ortalama, medyan, çarpıklık, basıklıklarını kaydedebilir misiniz? Veya (daha da iyisi) bir yoğunluk grafiği mi?
Peter Flom - Monica'yı eski durumuna döndürün

6
(X, Y) dağılımının iki değişkenli normal olup olmadığına bakılmaksızın Pearson korelasyonu doğrusallık derecesinin bir ölçüsüdür. Örnek tahmininin olasılık dağılımı normale bağlı olacaktır.
Michael R. Chernick

3
Bu değişkenler çok eğri değildir. Onları olduğu gibi bırakabilirsiniz.
Peter Flom - Monica'yı eski durumuna döndürün

3
Burada önem konusunda endişelenme. Tipik olarak, <-2 veya> 2 olan çarpıklık ve basıklık, belki de transformasyona ihtiyaç duyar. Daha da iyisi, neler olup bittiğini görmek için kuantil normal grafik ve çekirdekle yoğunluk grafiği gibi grafiklere bakmaktır.
Peter Flom - Monica'yı eski durumuna döndürün
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.