Normallik varsayımına rağmen sıralar Pearson korelasyonu neden geçerlidir?


9

Şu anda Pearson korelasyonları için varsayımları okuyorum. Takip eden t-testi için önemli bir varsayım, her iki değişkenin de normal dağılımlardan geldiği; eğer yapmazlarsa, Spearman rho gibi alternatif önlemlerin kullanılması savunulur. Spearman korelasyonu Pearson korelasyonu gibi hesaplanır, sadece X ve Y yerine X ve Y safhaları kullanılarak doğru mu?

Benim sorum şu: Pearson korelasyonuna giriş değişkenlerinin normal olarak dağıtılması gerekiyorsa, giriş değişkenleri sıralansa bile Spearman korelasyonunun hesaplanması neden geçerli? Rütbelerim kesinlikle normal dağılımlardan gelmiyor ...

Şimdiye kadar bulduğum tek açıklama, rho'nun öneminin Pearson korelasyon t-testinden (normallik gerektirmeyen bir şekilde) farklı bir şekilde test edilebileceğidir, ancak şu ana kadar hiçbir formül bulamadım. Ancak, birkaç örnek çalıştırdığımda, rho ve her zaman eşleşen Pearson korelasyonunun t-testi için p-değerleri her zaman eşleşir, son birkaç basamak için kaydedin. Bana göre bu çığır açan farklı bir prosedür gibi görünmüyor.

Herhangi bir açıklama ve fikir takdir edilecektir!

Yanıtlar:


7

Pearson korelasyonunu hesaplamak için normallik gerekli değildir; sadece karşılık gelen nüfus miktarı hakkındaki bazı çıkarım biçimlerinin normal varsayımlara (CI'ler ve hipotez testleri) dayanmasıdır.

Normalliğiniz yoksa, söz konusu çıkarımın zımni özellikleri geçerli olmaz.

Spearman korelasyonu durumunda, normalliğiniz yoktur, ancak bu iyidir çünkü Spearman korelasyonu için varsayım hesaplamaları (hipotez testi gibi) bir normallik varsayımına dayanmaz.

Sürekli iki değişkenli dağılımdan bir dizi eşleştirilmiş sıraya göre türetilirler; bu durumda hipotez testi, test istatistiğinin derecelerine göre permütasyon dağılımını kullanır.

Pearson korelasyonu ile ilgili çıkarımlar (iki değişkenli normallik) olduğunda, Spearman korelasyonu genellikle çok yakındır (ancak ortalama olarak 0'a biraz daha yakındır).

(Bu yüzden Pearson'u kullanabildiğinizde, Spearman çoğu zaman oldukça iyi sonuç verir. Başka bir işlemle (aykırı değerlere neden olan) kontaminasyon dışında neredeyse iki değişkenli normal verileriniz varsa, Spearman korelasyonu tahmin etmek için daha sağlam bir yol olurdu. kirlenmemiş dağılım.)


Teşekkür ederim, permütasyon dağılımına referans yardımcı olur!
GST95

nitpick "Spearman korelasyon tahmin etmek daha sağlam bir yol olacaktır" Spearman tahmin ediyorum dernek DEĞİL doğrusal bir korelasyon.
landroni

1
@landroni Genel olarak Spearman hakkında konuşuyordum, Spearman'ın ne yaptığını doğru bir şekilde karakterize edersiniz - ancak bu cümlede açıkça kirlilik altındaki nüfus korelasyonunun iki tahminini karşılaştırmaktan bahsediyorum ve demek istediğim tam anlamıyla orada. Korelasyon normal iki değişkenli düşünün ve sonra gerçekten aşırı outliersi ekleyin. Ben tahmin etmek istiyorsanız bu durumda, Spearman daha sağlam bir tahmincisi olduğunu Pearson korelasyon daha. ρρρ
Glen_b

1
@landroni ... Böyle bir durum, iyi davranılmış ana sürece ve çok aşırı olabilecek ancak sadece zaman zaman gerçekleşen bazı kirletici süreçlere sahip olduğunuzda ortaya çıkabilir. Kontamine olmamış sürecin korelasyonunu tahmin etmekle ilgileniyorsanız, Pearson korelasyonu kirlenmeye çok daha açıktır, Spearman'dan çok daha fazla.
Glen_b-Monica

2

birkaç örnek çalıştırdığımda, rho için p değerleri ve her zaman eşleşen sıralamaların Pearson korelasyonunun t-testi için, son birkaç basamak için kaydedin

Peki yanlış örnekleri çalıştırıyorsunuz!

a = c(1,2,3,4,5,6,7,8,9)
b = c(1,2,3,4,5,6,7,8,90)
cor.test(a,b,method='pearson')

    Pearson's product-moment correlation

data:  a and b
t = 2.0528, df = 7, p-value = 0.0792
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.08621009  0.90762506
sample estimates:
      cor 
0.6130088 

cor.test(a,b,method='spearman')

    Spearman's rank correlation rho

data:  a and b
S = 0, p-value = 5.511e-06
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho 
  1 

Vektörler ave biyi, ama mükemmel lineer (Pearson) korelasyondan uzak. Ancak, mükemmel sıra korelasyonu vardır. Bakınız - Spearman , bu durumda, son basamağı 8.1, 9, 90 veya 9000 ise (deneyin!) Önemli değil, sadece 8'den büyükse önemli . Sıralamaları ilişkilendiren bir fark budur. ρb

Tersine, ave bmükemmel sıra korelasyonuna sahipken , Pearson korelasyon katsayıları 1'den küçüktür. Bu, Pearson korelasyonunun safları yansıtmadığını gösterir.
Pearson korelasyonu doğrusal bir fonksiyonu, sıra korelasyonunu sadece monoton bir fonksiyonu yansıtır. Normal veri durumunda, ikisi birbirine çok benzeyecektir ve bu yüzden verilerinizin Spearman ve Pearson arasında büyük farklılıklar göstermediğinden şüpheleniyorum.

Pratik bir örnek için aşağıdakileri göz önünde bulundurun; daha uzun insanların daha ağır olup olmadığını görmek istersiniz. Evet, bu aptalca bir soru ... ama umursadığın şey bu. Uzun boylu insanlar da küçük insanlardan daha geniş olduğu için, şimdi kütle ağırlıkla doğrusal olarak ölçeklenmez; yani ağırlık, yüksekliğin doğrusal bir fonksiyonu değildir . Senden% 10 daha uzun olan kişi (ortalama olarak)% 10'dan daha ağırdır. Vücut / kütle indeksinin küpü paydada kullanmasının nedeni budur.
Sonuç olarak, boy / kilo ilişkisini yanlış bir şekilde yansıtmak için doğrusal bir korelasyon olduğunu varsayarsınız. Buna karşılık, sıra korelasyonu bu durumda can sıkıcı fizik ve biyoloji yasalarına duyarsızdır; insanların yükseklik kazandıkça lineer olarak daha ağır büyüyüp büyümediklerini yansıtmaz, daha uzun insanların (bir ölçekte daha üst sıralarda) daha ağır (diğer ölçekte daha yüksek) olup olmadığını yansıtır.

Daha tipik bir örnek, "mükemmel / iyi / iyi / vasat / kötü / korkunç" gibi bir şeyi derecelendiren insanlar gibi Likert benzeri anket sıralaması olabilir. "mükemmel", "terbiyeli" ölçekte "kötü" den "terbiyeli" olmaktan uzak , ama gerçekten ikisi arasındaki mesafenin aynı olduğunu söyleyebilir miyiz? Doğrusal bir korelasyon mutlaka uygun değildir. Sıralama korelasyonu daha doğal.

Sorunuzu daha doğrudan ele almak için: hayır, Pearson ve Spearman korelasyonları için p değerleri farklı hesaplanmamalıdır . İkisi hakkında, kavramsal olarak ve sayısal olarak çok farklıdır, ancak test istatistiği eşdeğerse, p değeri eşdeğer olacaktır.

Pearson korelasyon içinde normallik varsayımı konusunda, bkz bu .
Daha genel olarak, diğer insanlar parametrik ve parametrik olmayan korelasyonlar konusuna ( buraya da bakınız ) ve bunun dağıtım varsayımları için ne anlama geldiğine ilişkin elimden çok daha iyi ayrıntılar vermişlerdir.


Teşekkür ederim! Bir dahaki sefere örnekleri daha fazla deneyeceğimden emin olacağım. :)
GST95

1
Hayır, bekle, aslında bu benim sorum değildi. Metod = "pearson" u x ve y metodu = "spearman" versiyonu ile karşılaştırmadım. Ben karşılaştırıldığında cor.test(x, y, method = "spearman")ile cor.test(rank(x), rank(y), method = "pearson"). Hangi tahminler seçilirse seçilsin, bu tahminler aynı olacaktır. Yine de teşekkürler! :)
GST95

@ GST95, Spearman korelasyonu, tam olarak transforme edilmiş veriler üzerinde gerçekleştirilen Pearson korelasyonudur. İki "yönteminiz" tam olarak aynı yöntemdir.
Dennis

@Dennis, tam olarak, (özdeş) rho katsayılarını değil, her ikisinin de t testi ile elde edilip edilmediğini görmek için p değerlerini karşılaştırıyordum.
GST95
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.