Kutu ve bıyık grafiklerini çok modlu dağıtım için veya yalnızca tek modlu dağıtım için de kullanabilir miyim?
Kutu ve bıyık grafiklerini çok modlu dağıtım için veya yalnızca tek modlu dağıtım için de kullanabilir miyim?
Yanıtlar:
Sorun, normal kutu grafiğinin * genel olarak modların sayısını gösterememesidir. Bazı (genellikle nadir) durumlarda, en az sayıda modun 1'i aştığına dair net bir işaret elde etmek mümkün olmakla birlikte, daha genel olarak belirli bir kutu çizimi bir veya daha fazla sayıda modla tutarlıdır.
* Yoğunluktaki değişiklikleri göstermek için daha fazlasını yapan ve birden çok modu tanımlamak için kullanılan kamın olağan boxplot türlerinde birkaç değişiklik önerilmiştir, ancak bunların bu sorunun amacı olduğunu düşünmüyorum.
Bu arsa Örneğin, yapar en az iki modda varlığına işaret (veriler tam olarak iki sahip olacak şekilde üretilmiştir) -
tersine, bu dağıtımında iki çok net mod var, ancak bunu boxplot'tan hiç söyleyemezsiniz:
Gerçekten de, buradaki şekil 1 (daha sonra [1] 'de yayınlanan bir çalışma kağıdı olduğuna inanıyorum), aynı kutu grafiğine sahip dört farklı veri seti gösteriyor.
Elimde olan bu veri yok, ancak benzer bir veri kümesi yapmak önemsiz bir mesele - yukarıdaki beş sayı özeti ile ilgili bağlantıda belirtildiği gibi, dağıtımlarımızı sadece dikdörtgen kutuların beş sayı özeti bizi kısıtlar.
Makaledekine benzer veriler üretecek olan R kodu şöyledir:
x1 = qnorm(ppoints(1:100,a=-.072377))
x1 = x1/diff(range(x1))*18+10
b = fivenum(x1) # all of the data has this five number summary
x2 = qnorm(ppoints(1:48));x2=x2/diff(range(x2))*.6
x2 = c(b[1],x2+b[2],.31+b[2],b[4]-.31,x2+b[4],b[5])
d = .1183675; x3 = ((0:34)-34/2)/34*(9-d)+(5.5-d/2)
x3 = c(x3,rep(9.5,15),rep(10.5,15),20-x3)
x4 = c(1,rep(b[2],24),(0:49)/49*(b[4]-b[2])+b[2],(0:24)/24*(b[5]-b[4])+b[4])
Aşağıda, yukarıdaki verilerin kağıttakine benzer bir görüntü (dört kutu grafiğinin tamamını burada göstermem dışında):
Ancak dikkatli olun - histogramlarda da sorunlar olabilir ; aslında, burada sorunlarından birini görüyoruz, çünkü üçüncü "doruk" histogramdaki dağılım aslında belirgin şekilde bimodal; histogram bölmesi genişliği gösterilemeyecek kadar geniştir. Ayrıca, Nick Cox'un yorumlarda belirttiği gibi, çekirdek yoğunluğu tahminleri de mod sayısının izlenimini etkileyebilir (bazen modları lekelemek ... veya bazen orijinal dağıtımda hiç bulunmayan küçük modlar önermek). Birçok ortak göstergenin yorumlanmasına özen gösterilmelidir.
Kutu grafiğinde çok modluluğu daha iyi gösterebilecek değişiklikler vardır (vazo grafikleri, keman grafikleri ve fasulye grafikleri, diğerleri arasında). Bazı durumlarda yararlı olabilirler, ancak mod bulmakla ilgileniyorsam genellikle farklı bir ekrana bakarım.
x4
[1]: Choonpradub, C. ve McNeil, D. (2005),
"Kutu planı geliştirilebilir mi?"
Songklanakarin J. Sci. Technol. , 27 : 3, s 649-657..
http://www.jourlib.org/paper/2081800
pdf
R ile çok modlu birliği tespit etmek için birden fazla seçenek vardır. Aşağıdaki grafiklere ilişkin veriler üç mod (-3,0,1) ile oluşturulmuştur. Kutu grafiği diğerleri tarafından açıkça daha iyi performans gösterir (keman grafiği farklı varsayılan çekirdek yoğunluğu ayarlarına sahip gibi görünür), ancak hiçbiri 0 ve 1 modlarını gerçekten ayırt etmez. Artık bilgisayar çağında boxplot kullanmak için çok az neden var. Neden bilgi atmalıyım?
dat <- c(rnorm(500, -3, 1), rnorm(200, 0, 1), rnorm(300, 1, 1))
par(mfrow=c(2, 2))
boxplot(dat, horizontal=TRUE, main="Boxplot")
require(beanplot)
beanplot(dat, horizontal=TRUE, main="Beanplot")
require(viopoints)
viopoints(dat, horizontal=TRUE, main="Viopoints")
require(vioplot)
vioplot(dat, horizontal=TRUE)
title("Violin Plot")