Y ve X korelasyonu sayesinde açıklanan varyanstaki kazanım nasıl sunulur?


11

Birinci sınıf öğrencilerine basit doğrusal korelasyonun (görsel olarak) nasıl açıklanacağını araştırıyorum.

Görselleştirmenin klasik yolu, düz bir regresyon çizgisine sahip bir Y ~ X saçılma grafiği vermek olacaktır.

Son zamanlarda, bu tür grafiklerin grafiğe 3 resim daha ekleyerek ve beni y ile bırakarak: y ~ 1, sonra y ~ x, artık (y ~ x) ~ x ve son olarak bırakarak genişletme fikriyle geldim. kalıntıların (y ~ x) ~ 1 (ortalanmış)

İşte böyle bir görselleştirmeye bir örnek: alternatif metin

Ve onu üretmek için R kodu:

set.seed(345)
x <- runif(50) * 10
y <- x +rnorm(50)


layout(matrix(c(1,2,2,2,2,3 ,3,3,3,4), 1,10))
plot(y~rep(1, length(y)), axes = F, xlab = "", ylim = range(y))
points(1,mean(y), col = 2, pch = 19, cex = 2)
plot(y~x, ylab = "", )
abline(lm(y~x), col = 2, lwd = 2)

plot(c(residuals(lm(y~x)) + mean(y))~x, ylab = "", ylim = range(y))
abline(h =mean(y), col = 2, lwd = 2)

plot(c(residuals(lm(y~x)) + mean(y))~rep(1, length(y)), axes = F, xlab = "", ylab = "", ylim = range(y))
points(1,mean(y), col = 2, pch = 19, cex = 2)

Bu da beni soruma götürüyor: Bu grafiğin nasıl geliştirilebileceğine dair herhangi bir öneriyi takdir ediyorum (metin, işaretler veya diğer ilgili görselleştirmelerle). Alakalı R kodu eklemek de güzel olacaktır.

Bir yön, R ^ 2 hakkında bazı bilgiler eklemektir (metin olarak veya x'in girişinden önce ve sonra varyansın büyüklüğünü gösteren satırlar ekleyerek) Başka bir seçenek, bir noktayı vurgulamak ve "daha iyi" "regresyon hattı sayesinde. Her bir katkı değerlendirilecektir.


1
Aynı zamanda, lineer regresyonun ne kadar iyi olabileceğini de gösteriyorsunuz, lütfen ilişkilerin düz çizgilerle iyi tanımlanmadığı durumlarda kitlenize nasıl başarısız olduğunu gösterin:require(mlbench) ; cor( mlbench.smiley()$x ); plot(mlbench.smiley()$x)
DWin

Will do Dwin ... :-)
Tal Galili

Yanıtlar:


4

İşte bazı öneriler (çiziminiz hakkında, korelasyon / regresyon analizini nasıl göstereceğim hakkında değil):

  • Sağ ve sol kenar boşluklarında gösterdiğiniz iki tek değişkenli alan bir çağrı ile basitleştirilebilir rug();
  • Bu bağlamda hiçbir anlam ifade etmeyen iki normallik varsayımı fikrini çağırma riski altında olan ve yoğunluk grafiğini veya bir kutu grafiğini göstermek için daha bilgilendirici buluyorum ;YXY
  • Regresyon çizgisine ek olarak, trend gibi parametrik olmayan bir tahmin göstermeye değer (bu iyi bir uygulama ve olası yerel doğrusal olmayanlar hakkında oldukça bilgilendirici);
  • Kaldıraç efekti veya Aşçılık mesafelerine göre puanlar vurgulanabilir (değişen renk veya boyutta), yani bireysel değerlerin tahmini regresyon çizgisinde ne kadar etkili olduğunu gösteren önlemlerden herhangi biri. @ DWin'in yorumunu ikinci yapacağım ve tek tek noktaların uyum iyiliğini nasıl "bozduğunu" veya doğrusallık varsayımından bir çeşit ayrımı nasıl tetiklediğini vurgulamak daha iyi olduğunu düşünüyorum.

Bu grafikte X ve Y'nin eşlenmemiş veriler olduğu varsayılmaktadır, aksi takdirde dağılım grafiğine ek olarak karşı bir Bland-Altman grafiğine ( bağlı kalacağım.( X + Y ) / 2(XY)(X+Y)/2


1

Gerçekten sorunuza cevap ancak aşağıdakiler bir dayalı doğrusal korelasyon olası bir hatadır görselleştirerek ilginç olabilir Değil cevabını dan stackoveflow :

par(mfrow=c(2,1))

set.seed(1)
x <- rnorm(1000)
y <- rnorm(1000)
plot(y~x, ylab = "", main=paste('1000 random values (r=', round(cor(x,y), 4), ')',  sep=''))
abline(lm(y~x), col = 2, lwd = 2)

x <- c(x, 500)
y <- c(y, 500)
cor(x,y)
plot(y~x, ylab = "", main=paste('1000 random values and (500, 500) (r=', round(cor(x,y), 4), ')',  sep=''))
abline(lm(y~x), col = 2, lwd = 2)

alternatif metin

@Gavin Simpson ve @ bill_080'in yanıtı aynı konuda güzel korelasyon grafikleri içerir.


1

İki panelli iki grafiğim var, her ikisinin de solunda xy grafiği ve sağında bir histogram var. İlk grafikte, y'nin ortalamasına yatay bir çizgi yerleştirilir ve çizgiler bundan her noktaya uzanır ve y değerlerinin ortalamadan kalanlarını temsil eder. Bununla birlikte histogram basitçe bu kalıntıları çizer. Daha sonra bir sonraki çiftte, xy grafiği doğrusal uyumu temsil eden bir çizgi ve yine sağdaki bir histogramda temsil edilen artıkları temsil eden dikey çizgileri içerir. Ortalama "sığdır" a göre doğrusal uyumda daha düşük değerlere geçişi vurgulamak için histogramların x eksenini sabit tutun.


1

Sanırım teklif ettiğin şey iyi, ama bunu üç farklı örnekte yapardım

1) X ve Y tamamen ilişkisizdir. "X" yi y üreten r kodundan kaldırın (y1 <-rnorm (50))

2) Gönderdiğiniz örnek (y2 <- x + rnorm (50))

3) X, Y aynı değişkendir. "Rnorm (50)" yi y (y3 <-x) üreten r kodundan kaldırın

Bu daha açık bir şekilde korelasyonun arttırılmasının artıklardaki değişkenliği nasıl azalttığını gösterecektir. Sadece varsayılan ölçekleme kullanıyorsanız meydana gelebilecek her çizimde dikey eksenin değişmediğinden emin olmanız gerekir.

Böylece r1 vs x, r2 vs x ve r3 vs x olmak üzere üç grafiği karşılaştırabilirsiniz. Ben sırasıyla y1, y2 ve y3 kullanarak uyum kalıntıları belirtmek için "r" kullanıyorum.

Çizimdeki R becerilerim oldukça umutsuz, bu yüzden burada fazla yardım sunamıyorum.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.