Spearman korelasyonu için aşağıdaki iki formülün denkliğini kanıtlayın


14

Gönderen wikipedia , Spearman sıra korelasyon değişkenleri dönüştürerek hesaplanır ve sıralanmış değişkenlere ve ve sonra sırada değişkenler arasındaki Pearson korelasyon hesaplama:XiYixiyi

Vikipedi'yi wikipedia üzerinden hesapla

Bununla birlikte, makale ve değişkenleri arasında hiçbir bağ , yukarıdaki formülün eşdeğer olduğunu belirtmektedir.XiYi

Spearman'ı hesaplamak için ikinci formül

burada , sıralamadaki fark.di=yixi

Birisi bunun kanıtı olabilir mi lütfen? Vikipedi makalesinde atıfta bulunulan ders kitaplarına erişimim yok.

Yanıtlar:


14

ρ=i(xix¯)(yiy¯)i(xix¯)2i(yiy¯)2

Hiçbir bağları olduğu için, 'in ve ' hem tamsayılar arasından oluşur s ile dahil.y 1 nxy1n

Böylece paydayı yeniden yazabiliriz:

i(xix¯)(yiy¯)i(xix¯)2

Ancak payda sadece bir fonksiyonudur :n

i(xix¯)2=ixi2nx¯2=n(n+1)(2n+1)6n((n+1)2)2=n(n+1)((2n+1)6(n+1)4)=n(n+1)((8n+46n6)24)=n(n+1)((n1)12)=n(n21)12

Şimdi paylara bakalım:

i(xix¯)(yiy¯)=ixi(yiy¯)ix¯(yiy¯)=ixiyiy¯ixix¯iyi+nx¯y¯=ixiyinx¯y¯=ixiyin(n+12)2=ixiyin(n+1)123(n+1)=n(n+1)12.(3(n+1))+ixiyi=n(n+1)12.[(n1)(4n+2)]+ixiyi=n(n+1)(n1)12n(n+1)(2n+1)/6+ixiyi=n(n+1)(n1)12ixi2+ixiyi=n(n+1)(n1)12i(xi2+yi2)/2+ixiyi=n(n+1)(n1)12i(xi22xiyi+yi2)/2=n(n+1)(n1)12i(xiyi)2/2=n(n21)12di2/2

Pay / Payda

=n(n+1)(n1)/12di2/2n(n21)/12=n(n21)/12di2/2n(n21)/12=16di2n(n21) ,.

bundan dolayı

ρ=16di2n(n21).


5
O gözlem ile başlayarak Bu çalışmanın son% 80 ortadan kaldırabilir , böylece eksprese sorunu azaltmak, konumu ve ölçek değişiklikleri altında değişmeyen bir açısından zaman ; formül açıkça . Daha sonra yapılacak tek gerçek iş, payda hesaplamanızla gerçekleştirilir. x i y i( x i - y i ) 2x 2 i = y 2 i = 1 1ρxiyi(xiyi)2xi2=yi2=112di2=12(xiyi)2=1xiyi
whuber

@whuber +1, bu biraz daha iyi. Ama sanırım onu ​​daha uzun, daha az temiz, bir kapıda boğa formunda bırakacağım.
Glen_b

teşekkürler, her iki cevap da iyi ama bunu kendimi denemeye başladığım gibi kabul ettim.
Alex

Daha prosaik rotaya gitme nedenlerimi açıklamalıyım - diğer cevaplar düzgün, aydınlatıcı ve zeki, ancak kendi başlarına daha iyi öğrenciler tarafından üretilmesi muhtemel olmayan bilgiler gerektiriyor. Etkilenmemiş manipülasyonun basitleşmeye tamamen uygun olduğunu göstermenin avantajı, ilhamsız-içgörüsel öğrencinin bile orta derecede yetenekli olduğunu bile kavraması gerektiğidir. Bazen anlayışlı numaralara ihtiyacınız olmadığını bilmek (onları görmeyenler için) yararlıdır.
Glen_b

Sanırım bu neyin "hile", "manipülasyon" ve "içgörü" nü oluşturduğuna bağlı. Yakınlaştırdığınız cebirsel hesaplamaların uzun pilleri, samimi olarak, çok az fikir verir veya hiç fikir vermez (ve aynı zamanda hatalar için birçok fırsat sunar) - ve öğrencilerin onları tek başına ve motive olmayanlar için zorlu olarak görebileceklerinden korkuyorum. Ön standardizasyon (burada çok yardımcı olan) gibi diğer işlemler başlangıçta "hileler" olarak görülebilir, ancak birkaç uygulamadan sonra anlayışlı ve temel araçlar olarak görülmelidir.
whuber

10

İkinci formülde , iki (sıralanmış) değişken arasındaki kare şeklinde Öklid mesafesinin göründüğünü görüyoruz : . Başlangıçtaki belirleyici sezgi, ile nasıl ilişkili olabileceğidir . Kosinüs teoremi ile açıkça ilişkilidir . Eğer iki değişken ortalanırsa, o zaman bağlantılı teorem formülündeki kosinüs eşittir (kolayca kanıtlanabilir, burada verildiği gibi alacağız). Ve (kareli Öklid normu) , ortalanmış bir değişkende karelerin toplamıdır. Yani teoremin formülü şöyle görünür: D 2 r r h 2 N σ 2 D 2 x y = N σ 2 x + N σ 2 y - 2 D2=Σdi2D2rrh2Nσ2D2Dxy2=Nσx2+Nσy22NσxNσyr. Lütfen başka bir önemli noktaya dikkat edin (ayrı olarak kanıtlanması gerekebilir): Veriler sıralandığında , ortalanmış ve ortalanmamış veriler için aynıdır.D2

Ayrıca, iki değişken sıralandığından varyansları aynıdır, , dolayısıyla .D 2 = 2 N σ 2 - 2 N σ 2 rσx=σy=σD2=2Nσ22Nσ2r

(N2-1)/12r=1-6D2r=1D22Nσ2 . Sıralanan verilerin varyans sahip ayrı bir düzgün dağılımdan geldiğini hatırlayın . Formül içine yerleştirildiğinde kalır .(N21)/12r=16D2N(N21)


8

Cebir, ilk göründüğünden daha basittir.

IMHO, cebirsel manipülasyonları belamorlamakla elde edilen çok az kar ya da içgörü vardır. Bunun yerine, gerçekten basit bir kimlik, kare farklılıkların (normal Pearson) korelasyon katsayısını ifade etmek için neden kullanılabileceğini gösterir. Bunu verilerin sıralandığı özel duruma uygulamak sonucu verir. Şimdiye kadar gizemli katsayıyı sergiliyor

6n(n21)

. kademelerin varyansının yarısı olarak . (Bağlar mevcut olduğunda, bu katsayı daha karmaşık bir formül elde eder, ancak yine de verilere atanan sıralamaların varyansının yarısı kalacaktır .)1,2,,n

Bunu gördükten ve anladıktan sonra, formül unutulmaz hale gelir. Bağları işleyen, Wilcoxon sıra toplamı testi gibi parametrik olmayan istatistiksel testlerde ortaya çıkan veya mekansal istatistiklerde (Moran I, Geary's C ve diğerleri gibi) ortaya çıkan karşılaştırılabilir (ancak daha karmaşık) formüller anında anlaşılabilir hale gelir.


Eşleştirilmiş her türlü veri kümesi düşünün araçlarla ve ve sapma ve . Değişkenleri ve araçlarına yeniden ve standart sapmaları ve ölçüm birimleri olarak kullanarak veriler standart değerler açısından yeniden ifade edilecektir.ˉ X ˉ Y s 2 X s 2 Y ˉ X ˉ Y s X s Y(Xi,Yi)X¯Y¯sX2sY2X¯Y¯sXsY

(xi,yi)=(XiX¯sX,YiY¯sY).

Tanım olarak , orijinal verilerin Pearson korelasyon katsayısı, standart değerlerin ortalama ürünüdür,

ρ=1ni=1nxiyi.

Polarizasyon Kimlik kareler ürünleri ile ilgilidir. İki ve için şunu belirtir:yxy

xy=12(x2+y2(xy)2),

ki bu kolayca doğrulanabilir. Bunu toplamdaki her terime uygulamak

ρ=1ni=1n12(xi2+yi2(xiyi)2).

Çünkü ve standardize edilmiş, bunların ortalama kareler hem birlik, nereden vardıry ixiyi

(1)ρ=12(1+11ni=1n(xiyi)2)=112(1ni=1n(xiyi)2).

Korelasyon katsayısı, olası maksimum değerinden , standart verilerin ortalama kare farkının yarısı kadar farklıdır.1

Bu, orijinal verilerin ne olursa olsun geçerli olan korelasyon için evrensel bir formüldür (yalnızca her iki değişkenin de sıfır olmayan standart sapmalara sahip olması şartıyla). (Bu sitenin sadık okuyucuları, bunun yalnızca ortalamayı anlayan birine kovaryansı nasıl açıklarsınız? ) Bölümünde açıklanan ve gösterilen kovaryansın geometrik karakterizasyonu ile yakından ilişkili olduğunu kabul edeceklerdir .)


Özel durumda, ve olan ayrı sıralarında , her sayılar aynı dizinin bir permütasyon . Böylece ve küçük bir hesaplama ileY i 1 , 2 , , n ˉ X = ˉ Y = ( n + 1 ) / 2XiYi1,2,,nX¯=Y¯=(n+1)/2

sX2=sY2=1ni=1n(i(n+1)/2)2=n2112

( olduğunda, mutlulukla sıfır değildir ). bu nedenlen>1

(xiyi)2=((Xi(n+1)/2)(Yi(n+1)/2))2(n21)/12=12(XiYi)2n21.

Bu hoş basitleştirme, ve aynı araçlara ve standart sapmalara sahip olduğu için meydana geldi : bu nedenle araçlarının farkı ortadan kalktı ve ürünü , kare kök içermeyen oldu .Y i s X s Y s 2 XXiYisXsYsX2

Formül içine bu takma için verirρ(1)ρ

ρ=16n(n21)i=1n(XiYi)2.

2
(+1) Ünlü "kovaryans için dikdörtgenler" cevabınız açısından geometrik yorum çok temiz ama sıradan okuyucuların görüp görmeyeceğini merak ediyorum - belki bir kroki diyagramı yardımcı olabilir (kendim eklemek için cazip oldum!). Merak eden için: formülü Kore İstatistik Katsayısı'na Bakmak İçin On Üç Yol listesinde 9 numaradır , Joseph İstatistikçi, Vol. 42, No. 1 (Şubat 1988), sayfa 59-66. stat.berkeley.edu/~rabbee/correlation.pdfr=1sxy2/2
Silverfish

2
@Silver Yararlı yorumlar için teşekkür ederim. Rodgers ve Nicewander makalesi sitemizde stats.stackexchange.com/a/104577 adresinde özetlenmiştir . Bir gün tarif ettiğin diyagramı çizebilirim.
whuber

5

Lise öğrencileri PMCC ve Spearman korelasyon formüllerini sigma notasyonunu manipüle etmek için cebir becerilerine sahip olmadan yıllar önce görebilirler, ancak bir dizi için polinom denklemini çıkarmak için sonlu farklar yöntemini iyi bilebilirler . Bu yüzden denklik için bir "lise kanıtı" yazmaya çalıştım: paydayı sonlu farklar kullanarak bulma ve paydaki toplamların cebirsel manipülasyonunu en aza indirme. Kanıtın sunulduğu öğrencilere bağlı olarak, pay için bu yaklaşımı tercih edebilirsiniz, ancak payda için daha geleneksel bir yöntemle birleştirebilirsiniz.

Payda ,i(xix¯)2i(yiy¯)2

Bağ olmadan, veriler bir sıradaki sıralarıdır, bu nedenle yi göstermek kolaydır . Bu toplamı yeniden düzenlemek için , ancak daha düşük sınıf öğrencileriyle bu toplamı sigma gösteriminden ziyade açıkça yazacağım. cinsinden bir kuadratik değerin toplamı cinsinden kübik olacaktır , sonlu fark yöntemine aşina olan öğrencilerin sezgisel olarak kavrayabileceği bir gerçek: kübik bir farkı kuadratik üretir, bu nedenle kuadratik bir toplamı kübik üretir. Kübik katsayılarının belirlenmesi, eğer öğrenciler rahat bir şekilde manipüle ediyorsa, basittirˉ x = n + 1{1,2,,n}x¯=n+12Sxx=i=1n(xix¯)2=k=1n(kn+12)2knf(n)Σgösterim ve ve formüllerini ve (ve unutmayın!) . Ancak, aşağıdaki gibi sonlu farklar kullanılarak da çıkarılabilirler.k=1nkk=1nk2

Zaman , veri kümesi, sadece bir , yüzden .n=1{1}x¯=1f(1)=(11)2=0

İçin , verilerdir , yüzden .n=2{1,2}x¯=1.5f(2)=(11.5)2+(21.5)2=0.5

İçin , veriler , , yani .n=3{1,2,3}x¯=2f(3)=(12)2+(22)2+(32)2=2

Bu hesaplamalar oldukça kısadır ve notasyonunun ne anlama geldiğini güçlendirmeye yardımcı olur ve kısa sürede sonlu farklar tablosunu .i=1n(xix¯)2

Sxx için sonlu farklar tablosu

Yukarıdaki bağlantılarda ana hatlarıyla belirtilen sonlu farklar yöntemini çıkararak katsayılarını elde edebiliriz . Örneğin, sabit üçüncü farklılıklar polinomumuzun gerçekten kübik olduğunu ve önde gelen katsayısı . Drudgery'yi en aza indirgemek için birkaç püf noktası vardır: iyi bilinen bir, bilmek sabit katsayıyı verdiğinden , diziyi geri uzatmak için ortak farklılıkları kullanmaktır . Bir diğeri, tamsayısı için sıfır olup olmadığını görmek için sekansı genişletmeyi denemektir.f(n)0.53!=112n=0f(0)f(n)n- örneğin, dizi pozitif fakat azalmış olsaydı, daha sonra çarpanlara ayırmayı kolaylaştıracağından, "bir kök yakalayıp yakalayamayacağımızı" görmek doğru bir şekilde genişletilmeye değer olurdu. Bizim durumumuzda, fonksiyon küçükken düşük değerlerin etrafında dolaşıyor gibi görünüyor , bu yüzden sola doğru daha da uzatalım.n

Sxx için genişletilmiş sonlu fark tablosu

Aha! Görünen o ki üç kökü de yakaladık: . Dolayısıyla polinomun , ve faktörleri vardır . Kübik olduğu için şu şekilde olmalıdır:f(1)=f(0)=f(1)=0(n+1)n(n1)

f(n)=an(n+1)(n1)

Biz görebilirsiniz katsayısı olmalıdır zaten olduğu belirlendi . Çünkü Seçenek olarak ise, Elimizdeki , aynı sonuca olan potansiyel. İki karenin farkını genişletmek şunları verir:an3112f(2)=0.5a(2)(3)(1)=0.5

Sxx=n(n21)12

Aynı argüman için de geçerli olduğundan , payda ve bitti. Açıklamamı görmezden gelen bu yöntem şaşırtıcı derecede kısa. Eğer polinomun kübik olduğunu belirleyebilirse, üçüncü farkı belirlemek için vakaları için sadece hesaplamak . Kök avcıları, diziyi yalnızca üç kök bulunduğunda, ve sola doğru genişletmelidir . bu şekilde birkaç dakika sürdü .SyySxxSyy=Sxx2=SxxSxxn{1,2,3,4}n=0n=1Sxx

Pay, i(xix¯)(yiy¯)

düzenlenebilir kimliğini not ediyorum :(ba)2b22ab+a2

ab12(a2+b2(ba)2)

Biz izin Eğer ve Elimizdeki elde edilen faydalı sonuç, özdeş oldukları anlamına gelir, çünkü iptal edilir. Kimliğimi ilk başta yazma sezgim buydu; Anların ürünü ile çalışmaktan farklılıklarının karesine geçmek istedim. Şimdi var:a=xix¯=xin+12b=yiy¯=yin+12ba=yixi=di

(xix¯)(yiy¯)=12((xix¯)2+(yiy¯)2di2)

Umarım öğrenciler bile nasıl manipüle edileceğinden emin değildir notasyonu veri kümesi üzerinde toplamanın nasıl sonuç verdiğini görebilir:Σ

Sxy=12(Sxx+Syyi=1ndi2)

Toplamları yeniden bizi şu şekilde bıraktığını :Syy=Sxx

Sxy=Sxx12i=1ndi2

Spearman'ın korelasyon katsayısı formülü kavrayışımızda!

rS=SxySxxSyy=Sxx12idi2Sxx=1idi22Sxx

in önceki sonucunu değiştirmek işi bitirir.Sxx=112n(n21)

rS=1idi2212n(n21)=16idi2n(n21)
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.