Sıralanan veriler için bir regresyon çizgisi çizmek “iyi” mi (Spearman korelasyonu)?


12

Spearman korelasyonunu hesapladığım verilerim var ve bunu bir yayın için görselleştirmek istiyorum. Bağımlı değişken sıralanır, bağımsız değişken sıralanmaz. Görselleştirmek istediğim gerçek eğimden daha genel bir eğilim, bu yüzden bağımsız olarak sıraladım ve Spearman korelasyonunu / regresyonunu uyguladım. Ama sadece verilerimi çizdiğimde ve taslağımı eklemek üzereyken, bu ifadeye ( bu web sitesinde ) rastladım :

Spearman sıra korelasyonunu yaparken tanım veya tahmin için neredeyse hiçbir zaman bir regresyon çizgisi kullanmayacaksınız, bu yüzden bir regresyon çizgisinin eşdeğerini hesaplamayın .

ve sonra

Spearman sıra korelasyon verilerini doğrusal bir regresyon veya korelasyon için yaptığınız gibi grafikleyebilirsiniz. Ancak grafiğe bir regresyon çizgisi koymayın ; sıra korelasyonu ile analiz ettiğinizde bir grafiğe doğrusal regresyon çizgisi koymak yanıltıcı olacaktır.

Mesele şu ki, regresyon çizgileri bağımsızlığı sıralamam ve Pearson korelasyonunu hesaplamamdan farklı değil . Eğilim aynı, ancak dergilerdeki renkli grafikler için fahiş ücretler nedeniyle tek renkli temsil ile gittim ve gerçek veri noktaları o kadar çok örtüşüyor ki tanınabilir değil.

Tabii ki, iki farklı parsel yaparak bu şekilde çalışabilirdim: Biri veri noktaları için (sıralama) ve diğeri regresyon hattı için (düzenlenmemiş), ancak söz konusu kaynağın yanlış veya sorun olduğu ortaya çıkıyorsa benim durumumda o kadar problemli değil, hayatımı kolaylaştıracaktı ( Bu soruyu da gördüm , ama bana yardımcı olmadı.)

Ek bilgi için düzenleyin:

X eksenindeki bağımsız değişken, özelliklerin sayısını ve y eksenindeki bağımlı değişken, performanslarıyla karşılaştırıldığında sınıflandırma algoritmaları ise sıralamayı temsil eder. Şimdi ortalama olarak karşılaştırılabilir bazı algoritmalar var, ama benim arsa ile söylemek istediğim gibi bir şey: "A sınıflandırıcı daha iyi olur daha fazla özellik mevcut olsa da, B daha az özellik olduğunda sınıflandırıcı B daha iyidir"

Grafiklerimi eklemek için 2'yi düzenle:

Özellik sayısına karşı çizilen algoritma sıraları resim açıklamasını buraya girin

Sıralanan özellik sayısına göre çizilen algoritma sıraları resim açıklamasını buraya girin

Bu nedenle, başlığı başlıktan tekrarlamak için:

Bir Spearman korelasyonunun / regresyonunun sıralı verileri için bir regresyon çizgisi çizmek doğru mudur?


Sıralamada kaç kategori var? Orantılılık varsayımını test ettiniz mi? Sıralı verilerin (örn. Sıralama) sürekli olarak ele alınmasında mükemmel derecede iyi olan birçok araştırmacı vardır. Bazen çok sayıda kategori varsa, mantıklıdır.
robin.datadrivers

1
Yedi sıralama var, bir Friedman testi için kullanılıyorlar
Sentry

Yanıtlar:


10

Belirttiğiniz değişkenler arasındaki monotonik ilişkiyi almak için bir sıralama korelasyonu kullanılabilir; bu nedenle normalde bunun için bir çizgi çizmezdiniz.

Kendall ya da Spearman (ya da başka bir) olsun, sayısal-y'ye ve sayısal-x'e çizgileri sığdırmak için sıra korelasyonlarını kullanmanın mükemmel mantıklı olduğu durumlar vardır. Tartışma (ve özellikle de son arsa) Bkz burada .

Bu senin durumun değil. Sizin durumunuzda, orijinal verilerin bir dağılım grafiğini, belki de düzgün bir ilişkiyle (örneğin LOESS tarafından) sunma eğilimindeyim.

İlişkinin monotonik olmasını beklersiniz; belki de monoton bir ilişkiyi tahmin etmeye ve çizmeye çalışabilirsiniz. [Bir R fonksiyonlu tartışılan var burada izotonik regresyon sığabilecek -. Örnek izotonik orada tek modlu değilken, fonksiyon izotonik uyuyor yapabilirsiniz]

İşte demek istediğim türden bir örnek:

resim açıklamasını buraya girin

Grafik, x ve y arasındaki monotonik bir ilişkiyi göstermektedir; kırmızı eğri scatter.smoothaynı zamanda montonik olan (monotonik olduğu garanti edilen pürüzsüz uyumlar elde etmenin yolları vardır, ancak bu durumda varsayılan loess pürüzsüzlüğü monotoniktir, bu nedenle varsayılan bir pürüzsüz pürüzsüzdür. Endişelenmeye gerek duymadım.

resim açıklamasını buraya girin
Monotonik bir ilişkiyi gösteren rütbe (y) ve rütbe (x) grafiği. Yeşil çizgi, kademeye (x) karşı yerleştirilmiş olan loess eğrisi değerlerini gösterir.

X ve y safhaları arasındaki korelasyon (yani Spearman korelasyonu) 0.892'dir - yüksek monotonik bir birliktelik. Benzer şekilde, (montonik) yerleştirilmiş loess yumuşatılmış eğri ( ) ve y değerleri arasındaki Spearman korelasyonu da 0.892'dir. [Bu şaşırtıcı değil, çünkü x'in monotonik olarak artan bir işlevi olan ve hepsi de yeşil çizgiye karşılık gelen herhangi bir eğri için geçerli olacaktır. Yeşil çizgi, rütbe (x) ile rütbe (y) arasında bir gerileme çizgisi değildir, ancak orijinal grafikteki monotonik bir oturuma karşılık gelen çizgidir. Sıralanan veriler için 'regresyon çizgisi' 1 değil 0.892 eğime sahiptir, bu yüzden biraz "daha düzdür".]y^

Eğer rütbe (Y) ve X'den başka bir şey göstermiyorsanız, arazilerde çizgiler kullanmaktan kaçınacağımı düşünüyorum; görebildiğim kadarıyla korelasyon katsayısının üzerinde çok fazla değer aktarmıyorlar. Ve zaten sadece trendle ilgilendiğini söylemiştim.

[ Bir regresyon çizgisini rütbe-y ile rütbe-x grafiğine çizmenin yanlış olduğunu bilmiyorum , zorluk onun yorumu olacaktır.]


Teşekkürler, cevabınız iyidir ve iyi açıklanmıştır. Ancak bu, önemli bilgileri atlamış olabileceğimin farkına varmamı sağladı. Verdiğim ek bilgilerle hala geçerli mi? Grafikler bugün iş bilgisayarımdayken takip ediyor.
Nöbetçi

Güncellememe bir göz atın ve bunlardan herhangi birinin bir değer olup olmadığını düşünün.
Glen_b

Evet, değerlidir, ancak genel anlamda. Ayrıca, "yanlışlığın" komployu yorumlama zorluğundan geldiğini de kabul ediyorum. İnsanların her zaman , sadece eğilimi göstermek istediğimi ifade etsem bile, özellikten rütbeyi tahmin etmek istediğimi varsayacağından korkuyorum .
Nöbetçi

Grafiklerinize baktığınızda --- rütbeleri gösteriyorsunuz, ancak hangi rütbelerin dayandığı özgün performans ölçümleriniz var mı?
Glen_b

Evet, biliyorum, ama burada kullanılamazlar, inan bana. Çalışmamın odak noktası algoritmaları, onları sıralayan Friedman testini kullanarak karşılaştırmak. Çok farklı performans aralıklarına sahip birden fazla veri seti vardır, bu nedenle burada sadece aralarındaki karşılaştırma ilginçtir.
Nöbetçi

3

Spearman kullanımı biri rütbesine olsaydı lojistik model sıralı orantılı oran kullanılarak eşdeğerdir modelleme yaparken vektör. PO modeli tipik olarak orijinal ölçeğinde modeller ve doğrusal olmayan terimler içerebilir. Tahmin almak için, model tabanlı bir yaklaşım kullanmak avantajlıdır. Örneğin bir PO modeline göre tahmini ortalama veya tahmin edilen medyan çizebilirsiniz. Örnekler http://biostat.mc.vanderbilt.edu/rms adresindeki çalışma kitaplarında verilmiştir .X X X Y YρXXXYY

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.