Pearson ve Spearman korelasyonu arasında nasıl seçim yapılır?


119

Spearman's ile Pearson r. Arasında ne zaman seçileceğini nasıl bilebilirim ? Değişkenim memnuniyet içerir ve puanlar toplamı kullanılarak yorumlanır. Ancak, bu puanlar da sıralanabilir.ρr


2
ayrıca, normal olmayan veri istatistikleri
Jeromy Anglim

1
normal veriler olması durumunda pearson üretin. normal olmayan veriler olması durumunda, mızrakçı üretir.

Yanıtlar:


137

Verilerinizi keşfetmek istiyorsanız, her ikisini de hesaplamak en iyisidir, çünkü Spearman (S) ve Pearson (P) korelasyonları arasındaki ilişki biraz bilgi verecektir. Kısaca, S rütbelerde hesaplanır ve dolayısıyla monotonik ilişkileri gösterirken, P gerçek değerlerdedir ve doğrusal ilişkileri gösterir.

Örnek olarak, ayarlarsanız:

x=(1:100);  
y=exp(x);                         % then,
corr(x,y,'type','Spearman');      % will equal 1, and 
corr(x,y,'type','Pearson');       % will be about equal to 0.25

Bunun nedeni, x ile monoton olarak artmasıdır , dolayısıyla Spearman korelasyonu mükemmeldir, fakat doğrusal değildir, bu nedenle Pearson korelasyonu kusurludur. yx

corr(x,log(y),'type','Pearson');  % will equal 1

Her ikisini de yapmak ilginç çünkü S> P'niz varsa, bu monotonik fakat doğrusal olmayan bir korelasyonunuz olduğu anlamına gelir. İstatistiklerde doğrusallığa sahip olmanın iyi olması nedeniyle (daha kolaydır) bir dönüşüm uygulayabilirsiniz (böyle bir günlük).y

Umarım bu, korelasyon türleri arasındaki farkları daha kolay anlaşılmasında yardımcı olur.


2
Bunun zaten söylediklerinizden bir şey olduğunu tahmin ediyorum, ancak S S'nin gerçekleşmesinin mümkün olmadığını onaylamak istiyorum.
Jonathan Thiele

9
@JonathanThiele, S <P'ye sahip olmak için tamamen mümkündür. Örneğin, Anscombe's Quartets'in II ve IV kümeleri bu davranışı göstermektedir. Ayrıca, bu soruya bakın: stats.stackexchange.com/questions/27127/…
atomicules

1
@tomicules Bilgi için teşekkürler. Anscombe's Quartet'deki korelasyonları yeni kontrol ettim ve bağlantınız yardımcı oldu.
Jonathan Thiele

Pearson ve Spearson korelasyonlarını bir düzeltme programına nasıl dahil edebilirsiniz? - - burada davayı düşünüyorum stackoverflow.com/a/40523080/54964 - - Ben bu yüzden Spearson dahil etmek geçerli olacağını düşünüyorum multifaktoriyel sorun var ve ben Pearson ile sadece gidemez.
Léo Léopold Hertz 준영

Bu, özellikle birçok değişken arasındaki korelasyonu test ederken, bir testin diğerine karşı yanıltıcı özenli haklı gösterme avantajına sahip olmasından dolayı genellikle benim aldığım yaklaşım. Pearson veya Spearman korelasyonu varsayımlarının karşılanıp karşılanmadığını görmek için her değişkeni incelemek yerine, her ikisini birden çalıştırın. Birçok pratik uygulamada, ilişkinin önem derecesine benzer önlemler alırlar, bu nedenle sonuçlarının büyük ölçüde farklı olduğu göreceli olarak az sayıda durumda daha derine inmeniz gerekir ve bunlar yine de hakkında daha fazla bilgi edinmek için ilginç vakalardır.
Nükleer Wang

50

En kısa ve çoğunlukla doğru cevap:

Pearson kriterleri doğrusal ilişki, Spearman kıyaslamaları monotonik ilişkiyi (birkaç sonsuzluk daha genel bir durumdur, ancak bazı güç kesintileri için) karşılaştırır.

y=1x+0


35

Bu genellikle istatistiklerde olur: sizin durumunuza uygulanabilecek çeşitli yöntemler vardır ve hangisini seçeceğinizi bilmiyorsunuz. Kararınızı, incelenen yöntemlerin artılarını ve eksilerini ve probleminizin özelliklerini temel almalısınız, ancak o zaman bile karar genellikle üzerinde anlaşılan "doğru" bir cevap olmadan özneldir. Genellikle makul göründüğü kadar çok yöntem denemek iyi bir fikirdir ve sabrınız izin verir ve hangilerinin size en iyi sonuçları verdiğini görür.

Pearson korelasyonu ile Spearman korelasyonu arasındaki fark, Pearson'un bir aralık ölçeğinden alınan ölçümler için en uygun olduğu ve Spearman'ın, sıradan alınan ölçümler için daha uygun ölçeklerden . Aralıklı ölçeklerin örnekleri arasında, "Farenheit'teki sıcaklık" ve "inç cinsinden uzunluk" ifadesi yer almaktadır, ki burada ayrı ayrı birimler (1 ° F, 1 inç) anlamlıdır. “Memnuniyet puanları” gibi şeyler sıralı tipe eğilimlidir, çünkü “5 mutluluğun” “3 mutluluktan” daha mutlu olduğu, “1 mutluluğun” anlamlı bir yorumunu yapıp yapamayacağınız açık değildir. Ama ne zaman eklersin Ordinal tipteki birçok ölçüm, sizin durumunuzda ne var, ne gerçekten ne sıra ne de aralıklı olan ve yorumlanması zor olan bir ölçümle bitirdiniz.

Memnuniyet puanlarınızı nicel puanlara dönüştürmenizi ve daha sonra bunların toplamlarıyla çalışmanızı tavsiye ederim , çünkü bu size yorumlamaya biraz daha elverişli veri sağlayacaktır. Ancak bu durumda bile Pearson veya Spearman'ın daha uygun olup olmadığı açık değildir.


2
Mesela ... iletişim anlayışı? Yüksek bir kaygı, çok yüksek bir kaygı ile kesin bir fark yaratmaz, değil mi? Ancak, bu değişkenin Pearson r'yi kullanarak diğer değişkenlerle korele olduğunu gördüm. Bu tamamen tamam mı? Teşekkür ederim!

28

Bugün ilginç bir köşe davası açtım.

Çok az sayıda örneğe bakıyorsak, Spearman ve Pearson arasındaki fark çarpıcı olabilir.

Aşağıdaki durumda, iki yöntem tam tersi bir korelasyon bildirmektedir .

görüntü tanımını buraya girin

Spearman ve Pearson'a karar vermek için bazı hızlı kurallar:

  • Pearsons'un varsayımları sabit varyans ve doğrusallıktır (veya buna oldukça yakın bir şey) ve eğer bunlar karşılanmazsa Spearmans'ı denemeye değer olabilir.
  • Yukarıdaki örnek, yalnızca bir avuç veri noktası (<5) varsa ortaya çıkan bir köşe durumudur. > 100 veri noktası varsa ve veriler doğrusal veya buna yakınsa, Pearson Spearman'a çok benzeyecektir.
  • Doğrusal regresyonun verilerinizi analiz etmek için uygun bir yöntem olduğunu düşünüyorsanız, Pearsons'un çıktısı, doğrusal bir regresyon eğiminin işareti ve büyüklüğü ile eşleşecektir (değişkenler standartlaştırılmışsa).
  • Verilerinizde doğrusal regresyonun toplamayacağı bazı doğrusal olmayan bileşenler varsa, önce bir dönüştürme uygulayarak verileri düzeltmeye çalışın (belki de log e). Bu işe yaramazsa, Spearman uygun olabilir.
  • Her zaman Pearson'un ilk önce denerim, eğer işe yaramazsa, Spearman'ı denerim.
  • Başka herhangi bir kural ekleyebilir veya yeni çıkardığım kuralları düzeltir misiniz? Bu soruyu bir topluluk Wiki yaptım, böylece yapabilirsin.

ps Yukarıdaki grafiği yeniden oluşturacak R kodu:

# Script that shows that in some corner cases, the reported correlation for spearman can be
# exactly opposite to that for pearson. In this case, spearman is +0.4 and pearson is -0.4.
y = c(+2.5,-0.5, -0.8, -1)
x = c(+0.2,-3,   -2.5,+0.6)

plot(y ~ x,xlim=c(-6,+6),ylim=c(-1,+2.5))
title("Correlation: corner case for Spearman vs. Pearson\nNote that they are exactly opposite each other (-0.4 vs. +0.4)")
abline(v=0)
abline(h=0)
lm1=lm(y ~ x)
abline(lm1,col="red")

spearman = cor(y,x,method="spearman")
pearson = cor(y,x,method="pearson")
legend("topleft",
    c("Red line: regression.",
    sprintf("Spearman: %.5f",spearman),
    sprintf("Pearson:   +%.5f",pearson)
))

7

Charles cevabını kabul ederken, hem katsayıları hesaplamanızı hem de farklılıklara bakmanızı öneririm. Çoğu durumda, tamamen aynı olacaktır, bu yüzden endişelenmenize gerek yoktur.

Ancak, eğer farklılarsa o zaman, Pearsons (sabit varyans ve doğrusallık) varsayımlarına uyup uymadığına bakmanız gerekir ve bunlar karşılanmazsa, muhtemelen Spearman kullanmaktan daha iyi olursunuz.


3
Bir makine öğrenicisi olarak kesinlikle istatistiksel doğruluk konusunda aziz değilim, ancak testi yaptıktan sonra varsayımları kontrol etmek bana sapkınlık gibi geldi.
steffen

7
@ steffen Bence iyi. Bir gerileme varsayımı, artıkların normal olarak dağıldığı şeklindedir. Regresyonu çalıştırmadan önce bunu nasıl kontrol edersiniz?
Glen

1
@Glen: Bu durumda yapamam. Ancak, farklı modellerin kalitesini karşılaştırdığımda, varsayımları belirli test sonuçları lehine gevşetme eğilimini azaltmak için testi gerçekleştirmeden önce varsayımı kontrol etmeyi tercih ederim (örneğin yaklaşık olarak normal dağılıma). Bir akıl hilesi önlenmesi olarak adlandırın. Sanırım sadece ben;).
steffen

1
@ steffen: sapkınlık konusunda haklısınız, ancak eğer iki prosedür aynı sonuçları verirse, o zaman bu, kullanılacak olan bir tat meselesidir, ancak eğer yapmazlarsa, varsayımları ve başarısız olduklarını kontrol etmek, genellikle veriler hakkında yararlı bilgiler verebilir. Şahsen, mümkün olan her yerde mızrakçı kullanıyorum, ancak bu benim alanımdaki yaygın bir uygulama değil.
richiemorrisroe 10:11
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.