Pearson veya Spearman'ın normal olmayan verilerle ilişkisi


113

İstatistik danışmanlığı çalışmalarımda bu soruyu yeterince sık alıyorum, burada yayınlayacağımı düşündüm. Aşağıda verilen bir cevabım var, fakat başkalarının söyleyeceklerini duymak istekliydim.

Soru: Normalde dağınık olmayan iki değişkeniniz varsa, korelasyon için Spearman's rho kullanmanız gerekir mi?


1
Neden her ikisini de hesaplayıp raporlamıyorsunuz (Pearson ? Un ve Spearman's?)? Farkları (veya bunların eksikliği) ek bilgi sağlayacaktır.

Basit bir regresyon katsayısı beta değerinin önemini test ettiğimizde ve Pearson korelasyon katsayısı (sayısal olarak beta için eual ) test ettiğimizde yapılan dağılım varsayımlarını karşılaştıran bir soru istatistik.stackexchange.com/q/181043/3277 .
ttnphns 29:15

Yanıtlar:


77

Pearson korelasyonu, iki sürekli rastgele değişken arasındaki doğrusal ilişkinin bir ölçüsüdür. Sonlu varyans ve sonlu kovaryansı varsaymasına rağmen normallik kabul etmez. Değişkenler iki değişkenli normal olduğunda, Pearson korelasyonu ilişkinin tam bir tanımını sağlar.

Spearman'ın korelasyonu rütbelere uygulanır ve böylece iki sürekli rastgele değişken arasındaki monotonik bir ilişkinin ölçüsünü sağlar. Ayrıca sıralı verilerle de kullanışlıdır ve aykırı değerlere karşı dayanıklıdır (Pearson'un korelasyonunun aksine).

Her iki korelasyon katsayısının dağılımı, her ikisi de merkezi limit teoremi nedeniyle asimptotik olarak normal olmasına rağmen, temel dağılıma bağlı olacaktır.


12
Pearson normallik üstlenmez, ancak ortak dağılım, normal değişkenli ise dernek sadece ayrıntılı bir ölçüsüdür. Bu ayrımın ortaya çıkardığı karmaşa göz önüne alındığında, cevabınıza eklemek isteyebilirsiniz. ρ
user603,

3
Yukarıdaki ifadeyi desteklemesi için alıntı yapılabilecek bir kaynak var mı (Kişi normalliği kabul etmiyor)? Şu anda bölümümüzde aynı tartışmayı yapıyoruz.

5
"Değişkenler iki değişkenli normal olduğunda, Pearson'un ilişkisi, ilişkinin tam bir tanımını sağlar." Ve değişkenler iki değişkenli normal olmadığında, Pearson korelasyonu ne kadar faydalıdır?
landroni

2
Bu cevap oldukça dolaylı görünüyor. "Değişkenler iki değişkenli normal olduğunda ..." Ve ne zaman değil? Bu tür bir açıklama neden hiç istatistik alamadım. "Rob, yeni elbisemi beğendin mi?" "Koyu renk, açık teninizi vurgular." "Tabii, Rob, ancak bunu gibi benim cilt emphasisez nasıl?" "Hafif cilt birçok kültürde güzel olarak kabul edilir." “Biliyorum Rob, ama hoşuna gitti mi ?” "Bence kıyafet güzel." "Ben de öyle Rob düşünüyorum ama güzel üzerimde ?" “Bana her zaman güzel görünüyorsun tatlım.”

1
Bundan önce iki cümleyi okursanız, cevabı bulacaksınız.
Rob Hyndman

49

Kendall'ın tau unutma ! Roger Newson Kendall üstünlüğü kanıtlamaya çalışmıştı τ a Spearman korelasyon üzerinde r S tam metin anda çevrimiçi serbestçe kullanılabilir bir kağıt korelasyonun bir rütbe esaslı tedbir olarak:

Newson R. "Parametrik olmayan" istatistiklerin arkasındaki parametreler: Kendall'ın tau, Somers'D ve medyan farkları . Stata Journal 2002; 2 (1): 45-64.

"Ve (s47) 'de Kendall ve Gibbons (1990)' a," ... Spearman's r S için güven aralıklarının daha az güvenilir ve daha az yorumlanabilir olduğunu, Kendall’ın τ- parametrelerinin güven aralıklarından daha az güvenilir olduğunu , ancak Spearman’ın s S örneğinin çok daha kolay olduğunu savundu. bilgisayar olmadan hesaplanır "(ki artık elbette bu kadar önemli değildir). Maalesef kitaplarının bir kopyasına kolay erişemiyorum:

Kendall, MG ve JD Gibbons. 1990. Sıra Korelasyon Metodları . 5th ed. Londra: Griffin


2
Ayrıca Kendall'ın tausunun büyük bir hayranıyım. Pearson, zevkime göre etkili noktalara / aykırı değerlere karşı çok hassastır ve Spearman bu sorundan muzdaripken, kişisel olarak Kendall'ı anlamak, yorumlamak ve açıklamak Spearman'dan daha kolay buluyorum. Elbette, kilometreniz değişebilir.
Stephan Kolassa,

Tecrübelerden hatırladığım, Kendall'ın taunun hala Spearman'dan çok daha yavaş (R). Veri kümeniz büyükse bu önemli olabilir.
wordsforthewise

35

Uygulanan bir bakış açısıyla, iki değişken arasındaki ilişkiyi, araştırma soruma uygun olacak şekilde özetleyen bir yaklaşım seçmekle daha fazla ilgileniyorum. Doğru standart hataları ve p-değerlerini elde etmek için bir yöntem belirlemenin ikinci bir soru olması gerektiğini düşünüyorum. Asimptotiklere güvenmemeyi seçseniz bile, dağıtım varsayımlarını önyükleme veya değiştirme seçeneği her zaman vardır.

Genel bir kural olarak Pearson'un korelasyonunu tercih ederim, çünkü (a) genel olarak teorik ilgi alanlarımla daha uyumludur; (b) bulgular arasında çalışmalar arasında daha doğrudan karşılaştırılabilirliği mümkün kılar; ve (c) birçok ortamda Pearson ve Spearman korelasyon katsayıları arasında minimum fark vardır.

Ancak, Pearson'un ham değişkenler üzerindeki korelasyonunun yanıltıcı olduğunu düşündüğüm durumlar var.

  • Aykırı Değerler: Aykırı değerlerin Pearson'un korelasyonları üzerinde büyük etkisi olabilir. Uygulanan ayarlardaki birçok aykırı değer, ölçüm hatalarını veya modelin genelleme amacı taşımayan diğer faktörleri yansıtır. Seçeneklerden biri, bu tür ayraçları kaldırmaktır. Tek değişkenli aykırı değerler Spearman's rho'da mevcut değildir, çünkü her şey rütbeye çevrilir. Böylece, Spearman daha sağlamdır.
  • Yüksek eğriltilmiş değişkenler: Eğriltilmiş değişkenleri, özellikle de eğriltilmiş değişkenleri ilişkilendirirken, bir log veya başka bir dönüşüm genellikle iki değişken arasındaki temel ilişkiyi daha net hale getirir (örneğin, hayvanların vücut ağırlığına göre beyin büyüklüğü). Bu tür ayarlarda, ham metrik zaten en anlamlı metrik olmayabilir. Spearman's rho, her iki değişkeni de saflara dönüştürerek dönüşüme benzer bir etkiye sahiptir. Bu açıdan bakıldığında, Spearman'ın romanı, hızlı ve kirli bir yaklaşım olarak görülebilir (veya daha olumlu bir şekilde, daha az özneldir), böylece optimal dönüşümler hakkında düşünmeniz gerekmez.

Yukarıdaki her iki durumda da, araştırmacılara Pearson korelasyonunu uygulamadan önce ayarlama stratejilerini (örneğin, dönüşümler, aykırı kaldırma / ayarlama) göz önünde bulundurmalarını veya Spearman's rho kullanmasını öneririm.


Dönüşümle ilgili sorun, genel olarak, her noktaya ilişkin hataları ve dolayısıyla ağırlığı dönüştürmesidir. Ve bu aykırı problemi çözmez.
skan

11

Güncellenmiş

Soru bizden normalliğin sorgulandığı durumlarda Pearson ile Spearman'ın yöntemi arasında seçim yapmamızı istiyor . Bu endişeyle sınırlı, aşağıdaki yazının herhangi birinin kararını bildirmesi gerektiğini düşünüyorum:

Oldukça hoş ve bu konuda on yıllara dayanan önemli literatür taraması yapıyor - Pearson'un “sakatlanmış ve çarpık yüzeyleri” nden başlayarak ve dağılımının sağlamlığından başlayarak . “Gerçeklerin” çelişkili doğasının en azından bir kısmı, bu çalışmanın çoğunun bilgisayar gücünün ortaya çıkmasından önce yapılmasıydı; bu durum, karmaşık olmayan türlerin dikkate alınmaması ve simülasyonlar olmadan incelenmesi zor olduğu için karmaşık bir şeydi.r

Kowalski'nin analizi dağılımı sonucuna olan değil olmayan normallik mevcudiyetinde sağlam ve alternatif işlemleri önermektedir. Yazının tamamı oldukça bilgilendirici ve önerilen bir kitaptır, ancak bir özeti için yazının sonunda çok kısa bir sonuca atlayın.r

Normallik ihlal edildiğinde Spearman ile Pearson arasında bir seçim yapması istenirse, dağıtımdan bağımsız alternatif savunuculuğa değerdir, yani Spearman'ın yöntemi.


Daha önce ..

Spearman'ın korelasyonu sıralamaya dayalı bir korelasyon ölçüsüdür; parametrik değildir ve normallik varsayımına dayanmaz.

Pearson korelasyonu için örnekleme dağılımı normalliği kabul ediyor; Özellikle bu, hesaplayabilmenize rağmen, anlamlılık testine dayanan sonuçların sağlam olamayacağı anlamına gelir.

Rob yorumlarda işaret ettiği gibi, büyük bir örnek ile bu bir sorun değildir. Yine de normalliğin ihlal edildiği küçük örneklerde Spearman'ın korelasyonu tercih edilmelidir.

Yorumlar ve cevaplar üzerinden Mulling'i güncelleyin , bu bana normal parametrik ve parametrik testler tartışmalarına neden oluyor. Biyoistatistik gibi literatürün çoğu büyük örneklerle ilgilenmez. Ben genellikle asimptotiklere dayanan şövalyeler değilim. Belki bu durumda haklı, ama bu bana açıkça görünmüyor.


1
Hayır. Pearson'un korelasyonu normal değil. Herhangi iki sürekli rastgele değişken arasındaki korelasyonun bir tahminidir ve nispeten genel koşullar altında tutarlı bir tahmin edicidir. Pearson korelasyonuna dayanan testler bile, numuneler CLT nedeniyle yeterince büyükse, normallik gerektirmez.
Rob Hyndman

2
Temel dağılımların sınırlı değişkenlik ve kovaryansa sahip olduğu sürece Pearson'un tanımlandığı izlenimi altındayım. Bu yüzden normallik gerekli değildir . Temel dağılımlar normal değilse, test istatistiğinin farklı bir dağılımı olabilir, ancak bu ikincil bir sorundur ve eldeki soru ile ilgili değildir. Öyle değil mi?

2
@Rob: Evet, işlerin kabaca aynı şekilde sonuçlandırılması için geçici çözümler bulabiliriz. Basitçe Spearman'ın yönteminden kaçınmak - çoğu istatistikçinin standart bir komutla işleyebilmesi. Benim tavsiyem, normalliğin sorgulanabilir olduğu küçük örnekler için Spearman'ın yöntemini kullanmaya devam ettiğini düşünüyorum. Burada tartışmalı olup olmadığından emin değilim.
ars

1
@ars. Doğrusal ilişkiden ziyade monotonikle ilgileniyor olsaydım ya da aykırı değerler ya da yüksek çarpıklık varsa Spearman'ı kullanırdım. Aykırı olmadıkça, Pearson'un doğrusal ilişkiler için kullanırdım. Örneklem büyüklüğünün seçim yapmakla ilgili olduğunu sanmıyorum.
Rob Hyndman

3
@Rob: Tamam, tartışma için teşekkürler. İlk bölüme katılıyorum, ancak sondan şüphe duyuyorum ve bu büyüklüğün yalnızca normal asimptotiklerin uygulanmadığı bir rol oynadığını da içereceğim. Örneğin, Kowalski 1972, bunun etrafındaki tarih hakkında oldukça iyi bir ankete sahip ve Pearson korelasyonunun düşünce kadar sağlam olmadığı sonucuna varıyor. Bakınız: jstor.org/pss/2346598
ars
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.