Goodman-Kruskal gama ve Kendall tau veya Spearman rho korelasyonları nasıl karşılaştırılır?


31

Çalışmamda, bazı veri kümeleri için öngörülen sıralamaları ve gerçek sıralamaları karşılaştırıyoruz. Yakın zamana kadar, Kendall-Tau'yu yalnız kullanıyorduk. Benzer bir proje üzerinde çalışan bir grup , bunun yerine Goodman-Kruskal Gamma'yı kullanmaya çalıştığımızı ve tercih ettiklerini önerdi . Farklı sıra korelasyon algoritmaları arasındaki farkların ne olduğunu merak ediyordum.

Bulduğum en iyi şey , Spearman'ın olağan lineer korelasyonların yerine kullanıldığını iddia eden bu cevaptı ve Kendall-Tau'nun daha az doğrudan olduğunu ve Goodman-Kruskal Gamma'ya daha çok benzer olduğunu iddia ediyordu. Çalıştığım verilerin hiçbir belirgin doğrusal korelasyonu olmadığı görülüyor ve veriler çok eğri ve normal değil.

Ayrıca, Spearman genel olarak verilerimiz için Kendall-Tau'dan daha yüksek bir ilişki olduğunu bildirmiştir ve veriler hakkında ne yazdığını özellikle merak ediyorum. Ben istatistikçi değilim, bu yüzden bu konular hakkında okuduğum bazı yazılar bana jargon gibi geldi, üzgünüm.


3
Spearman, verilerimiz için genellikle Kendall-Tau'dan daha iyi bir ilişki olduğunu rapor ediyor ve veriler hakkında ne yazdığını özellikle merak ediyordum ” ... muhtemelen hiçbir şey; Kendall τ , korelasyonlar gerçekten 0 ya da ± 1'e yakın olmadığında, Spearman'ın ρ değerinden sıklıkla 0'a yakındır - ilişkiyi farklı şekilde ölçer; tipik olarak büyüklüğü daha küçük olması, Spearman korelasyonunun 'daha iyi' olduğu anlamına gelmez; sadece verilerle ilgili farklı şeyler ölçüyorlar. 'Daha iyi korelasyon' demeye ne yol açacak? ρ0±1
Glen_b

1
Bu dolaylı olarak benim sorumla aynıydı, @Glen_b; dışında, algoritmaların neden daha yüksek korelasyon rapor ettiğini ve buna neyin neden olacağını soruyordum. Anlamımı biraz daha netleştirmek için "daha iyi" olanı "daha yüksek" olarak değiştireceğim. Farklı şeyleri ölçmeleri konusunda haklısın ve sayıların birbirleriyle gerçekten çok fazla ilgisi yok, ama sayıların gerçekte ne anlama geldiğini bilmek istiyorum.
Poik

Yanıtlar:


29

Spearman rho - Kendall tau . Bu iki sen o kadar çok hesaplama farklıdır olamaz doğrudan büyüklüğünü karşılaştırmak. Spearman genellikle 1/4 ila 1/3 oranında daha yüksektir ve bu da Spearman'ın belirli bir veri kümesi için "daha iyi" olduğu sonucuna varır. Rho ve tau arasındaki fark ideolojisinde, rho değişkenlik oranı ve tau olasılıklarındadır . Rho sıralı veriler için uygulanan normal bir Pearson r'dir ve r gibi, büyük momentli noktalara (yani bulut merkezinden sapmalara), küçük momentli noktalara göre daha hassastır. Bu nedenle rho, sıralamadan sonraki bulutun şekline oldukça duyarlıdırYapıldı: Dikdörtgen bir eşkenar dörtgen bulutun katsayısı, dikdörtgen şeklindeki bir daraltılmış bulutun katsayısından daha yüksek olacaktır (çünkü ilkinin keskin kenarları büyük momentlerdir). Tau, Gamma'nın bir uzantısıdır ve tüm veri noktalarına karşı aynı derecede hassastır , bu nedenle sıralı bulut şeklindeki özelliklere karşı daha az hassastır. Tau, rho'dan daha "genel" dir, çünkü rho, yalnızca değişkenler arasındaki temel (model veya fonksiyonel) ilişkinin kesinlikle monotonik olduğuna inandığınızda garanti altına alınır. Tau, monoton olmayan temel eğriye izin verirken, pozitif veya negatif monotonik "eğilim" olan ölçütlere genel olarak hakimdir. Rho, r ile aynı büyüklüktedir; tau değil.

Gama olarak Kendall tau . Tau sadece standart bir Gamma şeklidir. Bazı ilgili önlemlerin hepsinde payı vardır, ancak normalize paydalarında farklılık vardır :PQ

  • Gama: P+Q
  • 'D' ("x bağımlı"): P+Q+Tx
  • Somers 'D ("y bağımlı"): P+Q+Ty
  • Somers 'D ("simetrik"): yukarıdaki ikisinin aritmetik ortalaması
  • Kendall'ın Tau-b düzeltmesi. (kare tablolar için en uygun): bu ikisinin geometrik ortalaması
  • Kendall'ın Tau-c düzeltmesi. (dikdörtgen masalar için en uygun): N2(k1)/(2k)
  • Kendall'ın Tau-a düzeltmesi. (bağları ayarlamak nо yok): N(N1)/2=P+Q+Tx+Ty+Txy

burada - "uyum" gözlemler çiftlerinin sayısı, Q - "ters" ile; T x - X değişkenine göre bağ sayısı, T y - Y değişkenine göre, T x y - Her iki değişkende; N - gözlem sayısı, bu sayının daha az olduğu değişkende , k - farklı değerlerin sayısı.PQTxTyTxyNk

Böylece, tau teori ve büyüklük ile doğrudan Gamma ile karşılaştırılabilir. Rho, Pearson ile teori ve büyüklükte doğrudan karşılaştırılabilir . Nick Stauner'ın buradaki iyi cevabı, rho ve tau'yu dolaylı olarak nasıl karşılaştırmanın mümkün olduğunu anlatıyor.r

Ayrıca tau ve rho hakkında da bilgi edinin.


14

İşte Maurice Gil'in (1993) Maurice Kendall'ın teorik sebeplerden dolayı Spearman's ρ hakkındaki savunan bir alıntı :τρ

[Kendall ] daha hızlı bir normal dağılım yaklaşımlar p'ye olarak, N , örnek büyüklüğü, artar; ve τ ayrıca, özellikle bağlar mevcut olduğunda matematiksel olarak daha izlenebilirdir. τρNτ

Son zamanlarda üzerinde çalıştığım bir anket verisinin bir örneğinde, Kendall’ın τ’dan çok daha büyük tahminler ürettiği görülmesi dışında, Goodman-Kruskal hakkında fazla bir şey ekleyemiyorum. Spearman's ρ'dan daha düşük tahminler . Ancak, ben de bir kaç kısmi hesaplama çalıştı γ tahminleri (Foraita & Sobotka, 2012) ve bu yakın kısmi için çıktı p'ye kısmi daha t alınmak ben bırakacağım yani ... O olsa işlenmesi zaman adil bir miktar aldı simülasyon testleri veya başkasıyla matematiksel karşılaştırmalar ... (kim bilir, nasıl yapılır ...)γτργρτ

Gibi ttnphns ima, size sonucuna varamayız tahminleri daha iyi daha vardır τ kendi ölçekleri (limitler yok olsa bile) farklı olduğundan, tek başına büyüklük tarafından tahminlere. Gilpin, ρ - τ oranının çoğu değer aralığında kabaca 1,5 olduğunu belirten Kendall'dan (1962) bahsediyor . Büyüklükleri arttıkça yavaş yavaş yaklaşırlar, böylece her iki yaklaşım da 1 (veya -1) yaklaştıkça fark sonsuz olur. Gilpin, τ için üçüncü basamağa kadar ρ , r , r 2 , d ve Z r değerlerine eşdeğer güzel bir tablo verir.ρτρτρrr2Zrτ.01'in her aralığında, tıpkı bir istatistik istatistikleri ders kitabının kapağının içinde görmeyi beklediğiniz gibi. O şöyle olan Kendall belirli formüller üzerinde bu değerleri esas: (I için formül basitleştirilmişp'yePearson açısından olduğu Gilpin yazdığı form, gelenr.)

r=sin(τπ2)ρ=6π(τarcsin(sin(τπ2)2))
ρr

Belki τ'nızı bir ρ'ya dönüştürmekτρ ve hesaplamalı değişimin etki büyüklüğü tahmininizi nasıl etkilediğini görmek mantıklı olacaktır . Karşılaştırma, Spearman's daha hassas olduğu sorunların verilerinizde ne ölçüde bulunduğunun bir göstergesi olacağına inanıyor . Her problemi ayrı ayrı tanımlamak için daha doğrudan yöntemler mutlaka vardır; Önerim, bu sorunlar için daha hızlı ve kirli bir çok amaçlı efekt boyutuna daha fazla yol açabilir. Eğer bir fark yoksa (ölçekteki farkı düzelttikten sonra), o zaman biri sadece ρ için geçerli olan sorunlara daha fazla bakmanın gerekmediğini iddia edebilir.ρρ. Önemli bir fark varsa, o zaman muhtemelen neyin sorumlu olduğunu belirlemek için büyüteç lensi kırmanın zamanı gelmiştir.

Kendall kullanırken insanların genellikle etki boyutlarını nasıl rapor ettiklerini bilmiyorum (ne yazık ki, insanlar genel olarak etki boyutlarını bildirmekten endişe duyuyorlarsa da). r , bu ikisi rapor etmek akıllıca olur senin τ istatistik ve ölçeğine üzerindeki etkisi büyüklüğünü r ölçeğinde farkı dışında yukarıda dönüşüm formülü kullanarak ... ya da en azından bir noktada ve onun kullanışlı dönüşüm tablosu için Gilpin için bir duyuru .τrτr

Referanslar

Foraita, R., & Sobotka, F. (2012). Validation of graphical models. gmvalid Package, v1.23. The Comprehensive R Archive Network. URL: http://cran.r-project.org/web/packages/gmvalid/gmvalid.pdf

Gilpin, A. R. (1993). Table for conversion of Kendall's Tau to Spearman's Rho within the context measures of magnitude of effect for meta-analysis. Educational and Psychological Measurement, 53(1), 87-92.

Kendall, M. G. (1962). Rank correlation methods (3rd ed.). London: Griffin.


9

These are all good indexes of monotonic association. Spearman's ρ is related to the probability of majority concordance among random triplets of observations, and τ (Kendall) and γ (Goodman-Kruskal) are related to pairwise concordance. The main decision to make in choosing γ vs. τ is whether you want to penalize for ties in X and/or Y. γ does not penalize for ties in either, so that a comparison of the predictive ability of X1 and X2 in predicting Y will not reward one of the Xs for being more continuous. This lack of reward makes it a bit inconsistent with model-based likelihood ratio tests. An X that is heavily tied (say a binary X) can have high γ.


2
Frank, can you explain it Spearman's ρ is related to the probability of majority concordance among random triplets of observations in more details, not very mathematically hard, if possible? Thanks.
ttnphns

1
I read that many years ago, probably in a nonparametric statistics text. I have been unable to find the reference.
Frank Harrell

1
Unfortunate... :-( Because the statement itself is very intriguing.
ttnphns
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.