Verilen bir veri kümesi için Pearson ile Spearman arasındaki korelasyon katsayısı arasındaki korelasyon katsayısında büyük farklılıklara ne sebep olabilir?


22

Pearson'un iki değişken arasındaki katsayısı oldukça yüksektir (r = .65). Fakat değişken değerleri sıraladığımda ve bir Spearman korelasyonu yaptığımda, katsayı değeri çok daha düşüktür (r = .30).

  • Bunun yorumlanması nedir?

5
Bir korelasyon katsayısını yorumlamadan önce verilerin dağılımını göstermek genellikle iyi bir fikirdir.
chl

Örnek büyüklüğü nedir
Jeromy Anglim

Yanıtlar:


37

Neden büyük fark

  • Verileriniz normal dağılmış veya düzgün dağılmışsa, Spearman's ve Pearson ilişkisinin oldukça benzer olması gerektiğini düşünüyorum.

  • Sizin durumunuzda olduğu gibi çok farklı sonuçlar veriyorlarsa (.65'e karşı, .30'a), benim tahminim, verileri veya aykırı noktaları eğriltmiş olduğunuzu ve aykırı değerlerin, Pearson'un korelasyonundan daha büyük olmaya devam etmesidir. Yani, X'te çok yüksek değerler Y'de çok yüksek değerlerle birlikte ortaya çıkabilir.

  • @chl yerinde. İlk adımınız, dağılım grafiğine bakmak olmalıdır.
  • Genel olarak, Pearson ve Spearman arasındaki böyle büyük bir fark, bunu gösteren bir kırmızı bayraktır.
    • Pearson korelasyonu iki değişkeniniz arasındaki ilişkinin yararlı bir özeti olmayabilir veya
    • Pearson korelasyonunu kullanmadan önce bir veya iki değişkeni de dönüştürmelisiniz, veya
    • Pearson korelasyonunu kullanmadan önce aykırı noktaları çıkarmanız veya ayarlamanız gerekir.

ilgili sorular

Ayrıca Spearman ve Pearson korelasyonu arasındaki farklar hakkındaki önceki sorulara bakınız:

Basit R Örneği

Aşağıdaki, bunun nasıl olabileceğine dair basit bir simülasyondur. Aşağıdaki durumun tek bir ayracı içerdiğini, ancak birden fazla ayraçla veya eğri verilerle benzer efektler üretebileceğinizi unutmayın.

# Set Seed of random number generator
set.seed(4444)

# Generate random data
# First, create some normally distributed correlated data
x1 <- rnorm(200)
y1 <- rnorm(200) + .6 * x1

# Second, add a major outlier
x2 <- c(x1, 14)
y2 <- c(y1, 14)

# Plot both data sets
par(mfrow=c(2,2))
plot(x1, y1, main="Raw no outlier")
plot(x2, y2, main="Raw with outlier")

plot(rank(x1), rank(y1), main="Rank no outlier")
plot(rank(x2), rank(y2), main="Rank with outlier")

# Calculate correlations on both datasets
round(cor(x1, y1, method="pearson"), 2)
round(cor(x1, y1, method="spearman"), 2)
round(cor(x2, y2, method="pearson"), 2)
round(cor(x2, y2, method="spearman"), 2)

Bu çıktıyı veren

[1] 0.44
[1] 0.44
[1] 0.7
[1] 0.44

Korelasyon analizi, dışlayıcı Spearman ve Pearson olmadan oldukça benzer olduğunu ve aşırı dışlayıcı ile korelasyonun oldukça farklı olduğunu göstermektedir.

Aşağıdaki grafik, verinin saf olarak nasıl ele alınacağının, dış hattın uçtaki etkisini nasıl ortadan kaldırdığını göstermektedir; bu nedenle, dışlayıcı Spearman'ın hem dış hat ile hem de dış hat ile benzer olmasına neden olurken, dış hat eklenirken Pearson oldukça farklıdır. Bu, Spearman'ın neden sık sık sağlam dendiğini vurgulamaktadır.

görüntü tanımını buraya girin

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.