R'de karmaşık regresyon grafiği


10

Görsel veri analizi için karmaşık grafikler çizmem gerekiyor. 2 değişkenim ve çok sayıda vakam var (> 1000). Örneğin (dispersiyonu daha az "normal" yapmak için sayı 100'dür):

x <- rnorm(100,mean=95,sd=50)
y <- rnorm(100,mean=35,sd=20)
d <- data.frame(x=x,y=y)

1) Tesadüflerin göreceli frekansına karşılık gelen nokta boyutu ile ham verileri çizmem gerekiyor, bu yüzden plot(x,y)bir seçenek değil - nokta boyutlarına ihtiyacım var. Bunu başarmak için ne yapılmalı?

2) Aynı arsa üzerinde% 95 güven aralığı elips ve korelasyon değişimini temsil eden çizgi çizmem gerekiyor (doğru olarak nasıl adlandırılacağını bilmiyorum) - böyle bir şey:

library(corrgram)
corrgram(d, order=TRUE, lower.panel=panel.ellipse, upper.panel=panel.pts)

correlogramm

ancak her iki grafikte de tek bir grafikte.

3) Son olarak, tüm bunların üzerine ortaya çıkan bir linar regresyon modeli çizmem gerekiyor:

r<-lm(y~x, data=d)
abline(r,col=2,lwd=2)

ama hata aralığı ile ... QQ grafiğinde olduğu gibi:

QQ-arsa

ancak mümkünse hataları düzeltmek için.

Soru şu:

Tüm bunları tek bir grafikte nasıl elde edebilirim?

Yanıtlar:


29

Aşağıdaki resim elde etmek istediğiniz şeye benziyor mu?

resim açıklamasını buraya girin

Yorumlarınızı takip eden güncellenmiş R kodu:

do.it <- function(df, type="confidence", ...) {
  require(ellipse)
  lm0 <- lm(y ~ x, data=df)
  xc <- with(df, xyTable(x, y))
  df.new <- data.frame(x=seq(min(df$x), max(df$x), 0.1))
  pred.ulb <- predict(lm0, df.new, interval=type)
  pred.lo <- predict(loess(y ~ x, data=df), df.new)
  plot(xc$x, xc$y, cex=xc$number*2/3, xlab="x", ylab="y", ...)
  abline(lm0, col="red")
  lines(df.new$x, pred.lo, col="green", lwd=1.5)
  lines(df.new$x, pred.ulb[,"lwr"], lty=2, col="red")
  lines(df.new$x, pred.ulb[,"upr"], lty=2, col="red")    
  lines(ellipse(cor(df$x, df$y), scale=c(sd(df$x),sd(df$y)), 
        centre=c(mean(df$x),mean(df$y))), lwd=1.5, col="green")
  invisible(lm0)
}

set.seed(101)
n <- 1000
x <- rnorm(n, mean=2)
y <- 1.5 + 0.4*x + rnorm(n)
df <- data.frame(x=x, y=y)

# take a bootstrap sample
df <- df[sample(nrow(df), nrow(df), rep=TRUE),]

do.it(df, pch=19, col=rgb(0,0,.7,.5))

Ve işte ggplotized sürümü

resim açıklamasını buraya girin

Aşağıdaki kod parçası ile üretilmiştir:

xc <- with(df, xyTable(x, y))
df2 <- cbind.data.frame(x=xc$x, y=xc$y, n=xc$number)
df.ell <- as.data.frame(with(df, ellipse(cor(x, y), 
                                         scale=c(sd(x),sd(y)), 
                                         centre=c(mean(x),mean(y)))))
library(ggplot2)

ggplot(data=df2, aes(x=x, y=y)) + 
  geom_point(aes(size=n), alpha=.6) + 
  stat_smooth(data=df, method="loess", se=FALSE, color="green") + 
  stat_smooth(data=df, method="lm") +
  geom_path(data=df.ell, colour="green", size=1.2)

Cook'un mesafesi gibi model renk indeksleri ekleyerek renk gölgeleme efekti ile biraz daha özelleştirilebilir.


1
@chl +1, güzel grafik ve kısa kod.
mpiktas

@mpiktas Teşekkürler. Bu, doğru örnekle çalışmadığımı anlamamı sağladı, aslında :-)
chl

df.new <- data.frame(x = seq(min(x), max(x), 0.1))s size is also strange (too small). Also tryed x,dflibrary(car) cr.plots(m0)

(x,y)car::dataEllipseellipse

2
@Tal Elipsin yorumlanması paketteki ile aynıdır corrgram: ortalama merkezli ve SD (x) ve SD (y) ile ölçeklendirilmiş iki değişkenli normal dağılım varsayarak% 95 çift güven bölgesi gösterir. Ancak, bir dağılım grafiğinde kullanıldığında bunun büyük bir hayranı değilim. Ancak bkz. Murdoch & Chow, Büyük korelasyon matrislerinin grafiksel gösterimi , Am Stat (1996) 50: 178 veya Friendly, Corrgrams: Korelasyon matrisleri için keşif ekranları , Am Stat (2002) 56: 316.
chl

2

Nokta 1 cexiçin nokta boyutunu ayarlamak için çizimdeki parametreyi kullanın .

Örneğin

x = rnorm(100)
plot(x, pch=20, cex=abs(x))

Bir grafikte birden çok grafiğe par(mfrow=c(numrows, numcols))sahip olmak için, eşit aralıklı bir düzene sahip olmak veya layoutdaha karmaşık olanları yapmak için kullanın.


1
Bahşiş için +1 cex, ama bence OP her şeyi aynı çizim bölgesinde istiyor, ayrı olanlarda değil.
chl

Ahh ... şimdi soruyu anlıyorum. Peki, o zaman sadece üç grafiği çizmek curveveya pointsüzerine çizmek için kullanabilir ;)
nico
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.