Bir Kutu Grafiği, bir Histogramın sunmadığı hangi bilgileri sağlar?


13

Histogramlar, bir değişkenin dağılımı hakkında iyi bir fikir verir. Kutu grafikleri aynı şeyi yapmaya çalışır, ancak bu değişkenin dağılımının bir resmini vermezler.

İnsanların neden kutu grafikleri kullandığını anlamıyorum. Histogramlar her açıdan daha iyidir. Her ikisini de kullanmamın bir nedeni var mı?

Kutu çizimlerinin sağladığını düşündüğüm tek şey: aykırı değerler! Hangi gözlemlerin aykırı olabileceğini söyler.


1
Histogram her şekilde tüm dağılımın temsilinden daha mı kötü?
Anthony Martin

2
Ne istediğinize bağlı olarak, bir kutu grafiğiyle, histogramla sahip olmadığınız bazı kesin değerlere (örneğin, medyan, P75) sahip olabilirsiniz. Daha az bilgi görüntüler, ancak daha sentetiktir. Demek istediğim, bir histogramın bile tüm dağılıma kıyasla basitleştirme ve bilgi kaybı olduğu. Ancak kullanımı daha kolay olabilir
Anthony Martin

2
Histogramların faydası ile ilgili aksine bir bakış açısı, stats.stackexchange.com/a/51753 adresindeki (sitemizde "histogram" için arama yaparak bulunabilir) son derece yükselen gönderide cogently ifade edilmiş ve iyi bir şekilde gösterilmiştir .
whuber

3
İlginç düşünce - ancak kutu boyutunun arttırılması, kesme noktalarının seçimine talihsiz bağımlılığını korurken, histogramı kutu benzeri bir şekle indirecektir. IMHO, kutu grafiklerin gerçek değerleri, Tukey'in çok değişkenli verilerin keşifsel analizi için N harfli özetini incelemesi ve o sırada kalem ve kağıtla hesapladığını hatırlayarak en iyi şekilde takdir edilebilir. "Gezici şematik iz" gibi görselleştirmeler için, histogramlar veya keman grafikleri gibi koşullu yanıtların diğer tek değişkenli özetleri işe yaramaz.
whuber

1
Histogramdaki iki hata (imo), birkaç örnek olduğunda veya kutular yanlış boyutlarda olduğunda ortaya çıkar. İyi bir boxplot'un zayıflığı (ve ben söylersem JMP değişkenliğini düşünüyorum) çok yöntemli ve ince detaylar. Kutu grafiğinin parladığı bir yer az örnek olduğu zamandır. Ayrıca, farklı seviyelerde etkileşen değişkenlerin sayısı da hoşuma gidiyor - bu nedenle JMP değişkenlik grafiği.
EngrStudent

Yanıtlar:


16

Kutu grafiklerinin bir dağılımın daha fazla özetini sunması da bazı durumlarda bir avantaj olarak görülebilir. Bazen dağılımları karşılaştırırken genel şekli umursamıyoruz, aksine dağılımların birbirleriyle ilgili olduğu yer. Kuantilleri yan yana çizmek, umursamadığımız diğer detaylarla bizi rahatsız etmeden bunu yapmanın yararlı bir yolu olabilir.


1
Bu en iyi cevap. Kutu grafikleri dağılımları karşılaştırmak için histogramlardan daha iyidir!
kjetil b halvorsen

14

Tek değişkenli durumda, kutu grafikleri histogramın yapmadığı bazı bilgileri sağlar (en azından açıkça değil). Yani, tipik olarak bir aykırı olmayan ve aykırı sayılan noktaları açıkça ayıran medyan, 25. ve 75. persentil, min / maks sağlar. Tüm bunlar histogramdan "göz küresi" alabilir (ve aykırı değerlerde göz küresi yapmak daha iyi olabilir).

Bununla birlikte, çok daha büyük avantaj, aynı anda birçok farklı grup arasındaki dağılımları karşılaştırmaktır. 10'dan fazla grupla, bu yan yana histogramları olan yorucu bir görevdir, ancak kutu çizimleriyle çok kolaydır.

Bahsettiğiniz gibi, keman grafikleri (veya fasulye grafikleri) biraz daha bilgilendirici alternatiflerdir. Bununla birlikte, kutu grafiklerinden biraz daha fazla istatistiksel bilgi gerektirirler (yani istatistiksel olmayan bir kitleye sunuyorsanız, biraz daha korkutucu olabilir) ve kutu grafikleri, çekirdek yoğunluğu tahmin edicilerinden çok daha uzun olmuştur, bu nedenle daha fazla popülerlik göstermektedir.


3
+1. Düzeltme, kutu arsalar ortalamalar değil, medyanlar sağlar.
Greenparker

3
Herkes haklı olabilir. Kutu çizimleri genellikle çizilen medyanları gösterir (bunu reddettiğini gördüm, ancak bir örnek görmeyi hatırlamıyorum). Ancak bazı uygulamalar da araç göstermenizi sağlar. Bu genellikle iyi bir fikirdir.
Nick Cox

Bunu işaret ettiğiniz için teşekkürler. Aşırı durumlarda bazı garip arazilere yol açabilecek (genellikle) bunun ortalama olduğunu düşünmeye devam ediyorum.
Cliff AB

1
kutu grafikleri vs histogramlar ile yan yana karşılaştırmaların değerini göstermek için bununla birlikte gitmek için resimler olsaydı iyi olurdu
Rudolf Olah

7
  1. Size bir histogram gösterir ve medyanın nerede olduğunu sorarsam, bunu anlamak için biraz zamanınız olabilir ... ve sonra sadece bir yaklaşım elde edersiniz. Ben bir boxplot ile aynı şeyi yaparsanız hemen var; Eğer ilgilenen buysa, boxplots açıkça kazanır.

  2. Boxplot'ların, tek bir numunenin dağılımının açıklaması kadar etkili olmadığını kabul ediyorum, çünkü birkaç noktaya indiriyorlar ve bu size çok şey anlatmıyor.

    Ancak, düzinelerce dağıtımı karşılaştırıyorsanız, her birinin tüm ayrıntılarına sahip olmak, kolayca karşılaştırılabileceğinden daha fazla bilgi olabilir - bilgileri karşılaştırmak için daha az sayıda şeye azaltmak isteyebilirsiniz.

  3. Daha fazla bilgi daha iyiyse, histogramdan daha iyi seçenekler vardır; örneğin bir sap ve yaprak grafiği veya bir ekdf / kantil grafiği.

    Veya bir histograma bilgi ekleyebilirsiniz:

marjinal kutu ile histogram histogram rugplot ile jitter çubuk grafik ile histogram

( bu cevabın çizimleri )

Bunlardan ilki - kenar boşluğuna dar bir kutu grafiği ekleyerek - her iki ekrandan da kazanabileceğiniz herhangi bir avantaj sağlar.


1

Çubuk grafikler yalnızca gözlem sıklığı aralığı sağlarken kutu grafikleri, bir dağılımın çeşitli parametrelerinin, örnek grafiklerin ve çubuk grafiklerin yapamayacağı varyansların nerede olduğunu söylemekte daha iyidir. Böylece kutu grafikleri, eğer birden fazla dağılımı varsa etkili bir karşılaştırma aracı olarak kullanılır.


Bir kutu grafiğinin bir ortalama göstermesi nadirdir - neredeyse her zaman medyan kullanırlar - ve asla doğrudan varyansları temsil etmezler . Ayrıca, bu miktarların genellikle "bir dağılımın parametreleri" olarak kabul edilmediğine dikkat edin: bunlar bir grup veri için tanımlayıcı istatistiklerdir .
whuber

Tam olarak, çok fazla hesaplama yapmadan bir dağılımı tanımlamak için güzel bir araçtır. Ve medyanları daha fazla gösterirler ve birçok durumda her iki önlem de çakıştığından, kutu grafikleri ortalamayı yaklaşık olarak tahmin etmek için güzel bir araçtır.
Shiv_90

Yorumunuz, verileri temel dağıtım ile karıştırmaya devam ediyor gibi görünüyor . Ortalamanın herhangi bir veri grubundaki medyana eşit olması çok nadirdir. Ayrıca, kutu grafiğinin daha iyi ve en yaygın kullanımlarından biri, genellikle ortalama ve medyan arasında önemli bir fark anlamına gelen asimetriyi tanımlamaktır. Boxplot'un orijinal anlayışının arkasındaki temel ilkelerden biri, sağlam bir keşif aracı olmasıdır - bu, ortalama veya varyans gibi hassas istatistiklere dayanmamasını ima eder.
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.