Çok Modlu Dağıtım için Kutu ve Bıyık Grafiği


13

Kutu ve bıyık grafiklerini çok modlu dağıtım için veya yalnızca tek modlu dağıtım için de kullanabilir miyim?


Birden fazla mod içeren bir dağıtım için olağan terim ' multimodal ' olacaktır. Demek istediğin buysa, normal terimi kullanmak için lütfen düzenle. Başka bir şey ifade ediyorsanız, lütfen terimi tanımlayın.
Glen_b

1
Kutu grafikleri, karmaşık dağıtım şekilleri için her zaman yardımcı olmaz. Bimodal ... multimodal ("çokmodal" dan daha yaygın bir terim olduğunu tahmin ediyorum) şekiller genellikle gizlenir. Çok, unimodality'den ayrılmanın ne kadar güçlü olduğuna bağlıdır. Aksi takdirde zil çalmaz ve hata mesajı verilmez. Ancak bir histogram veya çekirdek yoğunluğu tahmini bile karmaşık dağılımları değiştirebilir; bazıları bir özellik olarak bir örnekte sadece tuhaf olan modların aşırı kabul edilmesi kolay olduğunu düşünüyor. Bilgi kaybetmeyen tek arsanın kantil arsa olduğunu söyleyebilirim.
Nick Cox

@Glen_b Yaptım. Kitabımda, çok modlu dağılımdan bahsediyorlar. Unimodal bir tepe için doğru mu?
user1091344

1
Kesinlikle edebilir bir kutu arsa kullanmak - kim keser misin? Sorun, olağan kutu grafiğinin modların sayısını göstermemesidir (çoklu kutu tipini gösterebilen kutu grafiklerinde değişiklikler olsa da). Boxplotlar, dağılım dağılım şeklinin doğrudan ilgilendiğinden ziyade, konum ve yayılımın gruplar arası karşılaştırmasına (birçok grupta) odaklandığında daha iyidir. Multimodality'nin gösterilmesi önemliyse - özellikle az sayıda grup varsa - farklı bir ekran veya belki de birkaç tane kullanmanızı şiddetle tavsiye ederim. (
Yorumumu elimden

1
Kanıtlarınız bizi bu kitabı iyi düşünmeye yöneltmiyor.
Nick Cox

Yanıtlar:


20

Sorun, normal kutu grafiğinin * genel olarak modların sayısını gösterememesidir. Bazı (genellikle nadir) durumlarda, en az sayıda modun 1'i aştığına dair net bir işaret elde etmek mümkün olmakla birlikte, daha genel olarak belirli bir kutu çizimi bir veya daha fazla sayıda modla tutarlıdır.

* Yoğunluktaki değişiklikleri göstermek için daha fazlasını yapan ve birden çok modu tanımlamak için kullanılan kamın olağan boxplot türlerinde birkaç değişiklik önerilmiştir, ancak bunların bu sorunun amacı olduğunu düşünmüyorum.

Bu arsa Örneğin, yapar en az iki modda varlığına işaret (veriler tam olarak iki sahip olacak şekilde üretilmiştir) -

resim açıklamasını buraya girin

tersine, bu dağıtımında iki çok net mod var, ancak bunu boxplot'tan hiç söyleyemezsiniz:

resim açıklamasını buraya girin

n=

Gerçekten de, buradaki şekil 1 (daha sonra [1] 'de yayınlanan bir çalışma kağıdı olduğuna inanıyorum), aynı kutu grafiğine sahip dört farklı veri seti gösteriyor.

Elimde olan bu veri yok, ancak benzer bir veri kümesi yapmak önemsiz bir mesele - yukarıdaki beş sayı özeti ile ilgili bağlantıda belirtildiği gibi, dağıtımlarımızı sadece dikdörtgen kutuların beş sayı özeti bizi kısıtlar.

Makaledekine benzer veriler üretecek olan R kodu şöyledir:

x1 = qnorm(ppoints(1:100,a=-.072377))
x1 = x1/diff(range(x1))*18+10
b = fivenum(x1)  # all of the data has this five number summary
x2 = qnorm(ppoints(1:48));x2=x2/diff(range(x2))*.6
x2 = c(b[1],x2+b[2],.31+b[2],b[4]-.31,x2+b[4],b[5])
d = .1183675; x3 = ((0:34)-34/2)/34*(9-d)+(5.5-d/2)
x3 = c(x3,rep(9.5,15),rep(10.5,15),20-x3)
x4 = c(1,rep(b[2],24),(0:49)/49*(b[4]-b[2])+b[2],(0:24)/24*(b[5]-b[4])+b[4])

Aşağıda, yukarıdaki verilerin kağıttakine benzer bir görüntü (dört kutu grafiğinin tamamını burada göstermem dışında):

resim açıklamasını buraya girin

Ancak dikkatli olun - histogramlarda da sorunlar olabilir ; aslında, burada sorunlarından birini görüyoruz, çünkü üçüncü "doruk" histogramdaki dağılım aslında belirgin şekilde bimodal; histogram bölmesi genişliği gösterilemeyecek kadar geniştir. Ayrıca, Nick Cox'un yorumlarda belirttiği gibi, çekirdek yoğunluğu tahminleri de mod sayısının izlenimini etkileyebilir (bazen modları lekelemek ... veya bazen orijinal dağıtımda hiç bulunmayan küçük modlar önermek). Birçok ortak göstergenin yorumlanmasına özen gösterilmelidir.

Kutu grafiğinde çok modluluğu daha iyi gösterebilecek değişiklikler vardır (vazo grafikleri, keman grafikleri ve fasulye grafikleri, diğerleri arasında). Bazı durumlarda yararlı olabilirler, ancak mod bulmakla ilgileniyorsam genellikle farklı bir ekrana bakarım.

x4

[1]: Choonpradub, C. ve McNeil, D. (2005),
"Kutu planı geliştirilebilir mi?"
Songklanakarin J. Sci. Technol. , 27 : 3, s 649-657..
http://www.jourlib.org/paper/2081800
pdf


2
Modlar hakkında iki geniş yorum. 1. Belirli bir model modelinin iyi bir testi, aynı boyuttaki numunelerde tekrar tekrar tekrarlanıp tekrarlanmadığıdır. Benim deneyimim, modların bu anlamda aşırı kararsız olabileceğidir. 2. Modları değerlendirirken, bir modun önemli bir yorumu olup olmadığını sormak her zaman değerlidir. Fakat her argüman yanlış olabilir; doğru hatırlıyorsam, çoğu insan, erkeklerin ve dişilerin bir karışımının yükseklik dağılımına bimodalite kazandıracağını tahmin eder, ancak yüksek kaliteli büyük örneklerde bile bunu tespit etmek zordur.
Nick Cox

1
@ NickCox teşekkürler; aslında, yüksekliklerin bimodal olmayacağını tahmin ederdim; (gerçeğe kabaca bir yaklaşım olarak), ortalamaları yaklaşık 1sd farklı olan ve yaklaşık kadın kadar erkek olan benzer standart sapmalara sahip iki normal dağılımı düşündüğümüzü hayal edin. Daha sonra aslında birleştirilmiş (iki normalin karışımı) dağılım imimodal olur. Gerçeklik biraz daha karmaşıktır, elbette - her iki dağıtım da etnik grupların karışımlarıdır, cinsiyetlerde ve etnik gruplarda bile eğridir, farklı varyanslara sahiptir ve araçlar 1d'den fazla farklılık gösterir, ancak sonuç (tek taraflılık) bizi şaşırtmamalıdır
Glen_b-Monica'yı

3
Keşifsel veri analizindeki (Reading, MA: Addison-Wesley, 1977) JW Tukey'in, kutu çizimlerinin işe yaramaz olduğu bir bimodal deseni olarak bir argonun keşfedilmesine yol açan Rayleigh'nin verilerinin bir nokta grafiğini içerdiğini işaret etmeye değer. ekran, Tukey durumunda yapıyı görmek için bir nokta grafiğine ihtiyaç vardır. Bilindiği gibi Tukey kutu arsa adını verdi ve çok iyi bilinmeyen mucidi oldu.
Nick Cox

7

R ile çok modlu birliği tespit etmek için birden fazla seçenek vardır. Aşağıdaki grafiklere ilişkin veriler üç mod (-3,0,1) ile oluşturulmuştur. Kutu grafiği diğerleri tarafından açıkça daha iyi performans gösterir (keman grafiği farklı varsayılan çekirdek yoğunluğu ayarlarına sahip gibi görünür), ancak hiçbiri 0 ve 1 modlarını gerçekten ayırt etmez. Artık bilgisayar çağında boxplot kullanmak için çok az neden var. Neden bilgi atmalıyım?

resim açıklamasını buraya girin

dat <- c(rnorm(500, -3, 1), rnorm(200, 0, 1), rnorm(300, 1, 1))

par(mfrow=c(2, 2))
boxplot(dat, horizontal=TRUE, main="Boxplot")

require(beanplot)
beanplot(dat, horizontal=TRUE, main="Beanplot")

require(viopoints)
viopoints(dat, horizontal=TRUE, main="Viopoints")

require(vioplot)
vioplot(dat, horizontal=TRUE)
title("Violin Plot")
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.