Dağılım grafiği matrisinizden kullanılabilir bilgileri çıkarmayı zor veya imkansız kılan bir takım sorunlar vardır.
Birlikte görüntülenen çok fazla değişkeniniz var. Dağılım grafiği matrisinde çok sayıda değişken olduğunda, her grafik kullanışlı olamayacak kadar küçük olur. Dikkat edilmesi gereken şey, alanın boşa harcanan birçok parselin çoğaltılmasıdır. Ayrıca, her kombinasyonu görmek istemenize rağmen, hepsini birlikte çizmeniz gerekmez. Bir dağılım grafiği matrisini dört veya beş kişilik küçük bloklara bölebileceğinize dikkat edin (kullanışlı bir şekilde görselleştirilebilen bir sayı). Her blok için bir tane olmak üzere birden fazla çizim yapmanız yeterlidir.
Yana Uzayda ayrı noktalarda çok fazla veri var , onlar birbirinin üzerine yığılması sonunda. Böylece, her bir konumda kaç nokta olduğunu göremezsiniz. Bununla başa çıkmanıza yardımcı olacak birkaç numara var.
- Birincisi titremektir . Değişme, veri kümenizdeki değerlere az miktarda gürültü eklemek anlamına gelir. Gürültü, artı veya eksi küçük bir miktar üzerinde merkezlenmiş düzgün bir dağılımdan alınır. En uygun miktarı belirlemek için algoritmalar vardır, ancak verileriniz bir birimden on kadar tüm birimlerde geldiğinden, iyi bir seçim gibi görünüyor. .5
- Çok fazla veriyle, titreşim bile patterlerin fark edilmesini zorlaştıracaktır. Bunu sağlamak için yüksek derecede doygun, ancak büyük ölçüde şeffaf olan renkler kullanabilirsiniz . Üst üste yığılmış çok fazla veri olduğunda, renk koyulaşır ve çok az yoğunluk olduğunda, renk daha açık olur.
- Saydamlığın çalışması için, verilerinizi görüntülemek için düz sembollere ihtiyacınız olacaktır , oysa R varsayılan olarak içi boş daireler kullanır.
Bu stratejileri kullanarak, bazı örnek R kodu ve yapılan grafikler:
# the alpha argument in rgb() lets you set the transparency
cols2 = c(rgb(red=255, green=0, blue=0, alpha=50, maxColorValue=255),
rgb(red=0, green=0, blue=255, alpha=50, maxColorValue=255) )
cols2 = ifelse(breast$class==2, cols2[1], cols2[2])
# here we jitter the data
set.seed(6141) # this makes the example exactly reproducible
jbreast = apply(breast[,1:9], 2, FUN=function(x){ jitter(x, amount=.5) })
jbreast = cbind(jbreast, class=breast[,10]) # the class variable is not jittered
windows() # the 1st 5 variables, using pch=16
pairs(jbreast[,1:5], col=cols2, pch=16)
windows() # the 2nd 5 variables
pairs(jbreast[,6:10], col=cols2, pch=16)
windows() # to match up the 1st & 2nd sets requires more coding
layout(matrix(1:25, nrow=5, byrow=T))
par(mar=c(.5,.5,.5,.5), oma=c(2,2,2,2))
for(i in 1:5){
for(j in 6:10){
plot(jbreast[,j], jbreast[,i], col=cols2, pch=16,
axes=F, main="", xlab="", ylab="")
box()
if(j==6 ){ mtext(colnames(jbreast)[i], side=2, cex=.7, line=1) }
if(i==5 ){ mtext(colnames(jbreast)[j], side=1, cex=.7, line=1) }
if(j==10){ axis(side=4, seq(2,10,2), cex.axis=.8) }
if(i==1 ){ axis(side=3, seq(2,10,2), cex.axis=.8) }
}
}