Bir kutu grafiğine alternatifler nelerdir?


20

Seçilen kullanıcı çokgenler için sayım verilerini görüntüler ve grafiksel olarak çeşitli parametrelerin (parametre başına bir grafik) dağılımını göstermek istiyorum bir web sitesi oluşturma üzerinde çalışıyorum.

Veriler genellikle aşağıdaki özelliklere sahiptir:

  1. Örnek boyutu büyük olma eğilimindedir (yaklaşık 10.000 veri noktası diyelim)
  2. Değerlerdeki aralık büyük ölçüde quire olma eğilimindedir (örneğin, minimum nüfus 100'den az olabilir ve maksimum 500.000 gibi bir şey olabilir)
  3. q1 genellikle minimuma (200 diyelim) yakınken, q2 ve q3 10.000 içinde olacak
  4. Normal bir dağılım gibi görünmüyor

Ben bir istatistikçi değilim ve bu yüzden tanımım tam olarak açık olmayabilir.

Bu dağılımı vatandaşların göreceği bir grafik üzerinde göstermek istiyorum (eğer isterseniz layman).

En iyisi bir histogram kullanmak isterdim, ancak çok çeşitli değerlerden dolayı mümkün değildir, çünkü bidonları yapmak gerçekten kolay ve basit değildir.

İstatistikler hakkında bildiklerimden, bir kutu grafiği, bu tür verileri göstermek için sıklıkla kullanılan şeydir, ancak bir layperson için Kutu planını deşifre etmenin kolay olmadığını hissediyorum.

Bu verileri anlaşılması kolay bir şekilde gösterme seçeneklerim nelerdir?


tam olarak ne gösteriyorsun? Bir veri noktanızın ne tür verileri temsil ettiği benim için net değil.
mpiktas

1
Çekirdek yoğunluk grafiğine ne dersiniz? statmethods.net/graphs/density.html
Roman Luštrik

@mpiktas: Verilerim köyler için Sayım verileridir. Web sitem kullanıcının haritada bir alan seçmesine izin verecek ve daha sonra o bölgedeki tüm köyleri bulacak. Bir köyün nüfus sayımı verileri çeşitli değerlerden oluşur: Erkek Nüfusu, Kadın nüfusu, O köy için ortalama hane geliri vb. Kullanıcı tarafından seçilen bölgeye düşen tüm köyler için belirli bir değerin (örneğin: Toplam Nüfus) veri dağılımını göstermeyi umuyorum.
Devdatta Tengshe

Yanıtlar:


13

Bir boxplot o kadar karmaşık değil. Sonuçta, sadece üç çeyrek , ve aralığı tanımlayan min ve maks hesaplamanız gerekir ; bıyıkları çizmek istediğimizde bir incelik ortaya çıkar ve çeşitli yöntemler önerilmiştir. Örneğin, bir Tukey boxplot değerinde, birinci veya üçüncü çeyrek kareler arası kartusun 1.5 katı dışında değerler aykırı sayılır ve basit noktalar olarak gösterilir. Ayrıca bkz. İstatistiksel Bilgi Sunma Yöntemleri: İyi bir genel bakış için Kutu Grafiği , Kristin Potter. R yazılım biraz farklı kural uygular ama gördüğünüz (bunu incelemek istiyorsanız kaynak kodu kullanılabilir boxplot()veboxplot.stats()fonksiyonlar). Bununla birlikte, ilgi çok çarpık bir dağılımdan aykırı değerleri tanımlamakta çok yararlı değildir (ancak bkz . Hubert ve Vandervieren, CSDA 2008 52 (12) tarafından çarpık dağılımlar için düzeltilmiş bir kutu çizimi).

Çevrimiçi görselleştirme söz konusu olduğunda, etkileşimli web ekranları için eklentisiz bir js araç kutusu olan Protovis'e göz atmanızı öneririm . Örnekler sayfa çok az hatlarında, onunla elde edilebilir ne çok illüstrasyonlar var.


3
Biyolojik araştırmalarda çalışıyorum. Boxplotları gerçekten kavrayamayan bazı meslektaşlarım (yani, doktora yapan insanlar) biliyorum. Onları genel bir kitleyi hedeflemek için kullanmam.
nico

1
@nico Bu adil bir nokta. Ancak, bu verimli grafik özeti kullanmamak için bir neden değildir. Bir kutu grafiğinin gerçekte ne yaptığını gösteren şematik bir örnek okuyucuya yardımcı olabilir.
chl

1
hedef kitlenin ne olduğuna ve sitenin amacının ne olduğuna bağlıdır. Boxplotları açıklamak kesinlikle yardımcı olacaktır, ancak yine de bazı insanlar dağıtım kavramıyla çok mücadele ediyorlar.
nico

@nico Evet, katılıyorum. Görselleştirme Hayvanat Bahçesi'nde A Turunda boxplot'tan bahsedilmemesine rağmen, bunlar büyük ve karmaşık veri setleri içindir, sadece beğendim ve deneysel bilimlerde çok fazla kullanılmadığını gördüğüm için üzgünüm. Ham verilerin üst üste gelmesi, okuyucunun dağıtımı görselleştirmesine yardımcı olmanın bir yoludur.
chl

1
Biliyorum! Her zaman en azından makale yazmak, sunum yapmak vb. Konusunda meslektaşlarımı kutu çizgilerine "dönüştürmeye" çalışıyorum ama bazen de öyle!
nico


7

Histogramlarla ısrar etmenizi öneririm. Alternatiflerden çok daha yaygın olarak anlaşılıyorlar. Çok çeşitli değerlerle başa çıkmak için bir günlük ölçeği kullanın. İşte Stata'da birkaç dakika içinde pişirdiğim bir örnek: Değer ekseninde günlük ölçeği ile histogram
x ekseni sayısal etiketlerinin tamamen basit veya otomatik olmadığını itiraf ediyorum, ancak bir web sitesi oluştururken programlama becerilerinizin meydan okuma!


İyi bir nokta. Histogramlar (veya bant genişliği deneyi ile yoğunluk grafikleri) burada harika bir çözümdür.
suncoolsu

Tamamen haklısın, Histogram'ın bir dağılımı göstermenin en anlaşılır yolu olduğunu. Günlük ölçeğinde her iki eksenle histogramlar yapmaya çalışacağım.
Devdatta Tengshe

2
Sadece x ekseni için bir günlük ölçeği kullanmanızı öneririm. Frekans ekseni için bir günlük ölçeğinin iyi bir fikir olacağını düşünmüyorum, çünkü o zaman histogramın her çubuğunun gölgeli alanı gözlem sayısıyla orantılı olmaz.
onestop

5

Burada, kutu grafiğine alternatif olarak çoklu histogramları 2D olarak yan yana çizmek için bir matlab işlevi . Üstteki resme bakın. Ve işte bir tane daha

Yoğunluk şeridi kutu çizimine başka bir alternatiftir. Bir noktadaki karanlığı o noktadaki miktarın olasılık yoğunluğu ile orantılı olan gölgeli tek renkli bir şerittir. Bu yoğunluk şeridinin bir R uygulamasıdır


1
(+1) Bunu unuttum. Kullanışlı olabilir.
chl

1
Gölgelemeyle Belirsizliğin Görüntülenmesi'nin ungated PDF sürümünü buldum .
chl

@chl: bu bağlantı çalışmıyor
kjetil b halvorsen

4

x%x=0,10,20,...,100


3
Bir arkadaşımdan alıntı yapmak: bir şeyi bir kağıda "gizlemek" istiyorsanız, onu bir şekle değil metne koyun. Kimsenin okumadığından emin olmak istiyorsanız bir masaya koyun! ;) Sadece şaka tabii ki, ancak kullanıcıların vb bir tablo almak için tıklayın vb interaktif haritalar ile bir web sitesi olması ... iyi bu hayal kırıklığı olurdu!
nico

@nico, evet ama bazen tablolar grafiklerden çok daha bilgilendirici. Örneğin kötü bir grafik yerine tabloyu tercih ediyorum. Bu durumda tablo hala grafikle temsil edilebilir ve aykırı değerlerle ilgili problemleri olmadığı için nicelik önerdim.
mpiktas

Şu anda yaptığım şey bu (ondalıkları bir grafik üzerinde göstererek), ancak hedef kitlemizin bazılarına gösterdikten sonra, grafiklerin anlaşılması kolay olmadığına dair geri bildirim aldık.
Devdatta Tengshe

2

Genel nüfusu (yani istatistiki meraklı olmayan bir kitleyi) hedefliyorsanız, istatistiksel doğruluktan ziyade göz şekerine odaklanmalısınız.

Boxplotları unutun, keman çizimlerini bir kenara bırakın (kişisel olarak onları okumak çok zor buluyorum) Sıradan bir sokak insanına bir kantilin ne olduğunu sorarsanız, çoğunlukla geniş gözlü bir sessizlik elde edersiniz ...

Barplots, kabarcık grafikler, belki bazı pasta grafikler (brrrr) kullanmalısınız. Hata çubuklarını unutun (her ne kadar SD'yi uygun yerlerde bir yere koyacağım).

Renkler, şekiller, kalın çizgiler, 3D kullanın. Tüm efsaneleri / eksenleri vb. Okumak zorunda kalmadan bile her grafiği benzersiz ve hemen anlaşılması kolay hale getirmelisiniz. Renklendirerek haritaları akıllıca kullanın.

Bilgi güzeldir fikir edinmek için çok iyi bir kaynaktır. Örneğin bu grafiğe bakın: Kafein ve Kaloriler : herkes onu anlayabilir ve göze hoş gelir.

Ve elbette, Edward Tufte'nin çalışmalarına bir göz atın.


Not Onun uygulamaları için keman grafikleri kullanmasını değil, logaritmik aralıklı kutular içeren bir histogram kullanmasını önermiyordum. Keman grafikleri, başlıktaki sorunun cevabıydı (postanın kendisindeki sorudan oldukça farklıydı).
Dikran Marsupial


2

Doğrusu gibi keman araziler kendim, bu dağılımın şekli hakkında bir fikir verir. Bununla birlikte, geniş değer aralığı söz konusuysa, belki de ham değerleri yerine verilerin günlüğünü çizmek en iyisi olacaktır, bu daha sonra histogramlar için kutu boyutlarının seçilmesini sağlayacaktır. Günlüklerden bahsetmeyin ve ekseni 10, 100, 1000, 10000, 100000, 1000000 vb.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.