Küçük örneklerin grafiklendirilmesi


13

Bir görevi tamamlamak için 14 ayrı veri setim var. Ancak ben verileri grafik için kullanmak için uygun bir grafik bulmakta zorluk yaşıyorum. Örnek daha büyük olsaydı, bir kutu çizimi veya histogram kullanırdım, ancak örnek çok küçük olduğunda bu durumda kullanmanın uygun olup olmadığından emin değilim.

Güncelleme: Zamanlar 5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2


4
İnsanları farklı çözümler yayınlamaya teşvik etmek için önem verdiğiniz gerçek verileri somut bir örnek olarak gösteren hiçbir şey yoktur. Önceden nokta veya stripplots ve kutunun üzerine bindirilmiş kantil grafikler öneriyorum.
Nick Cox

Yanıtlar:


16

Buradaki temel ilke, tüm bireysel değerleri gösterebileceğiniz ve göstermeniz gerektiğidir. Ayrıntı açıkça ilginç ya da yararlı olmasa bile, göstermemek ya da okuyucunun çubukların sadece bir ya da iki değeri temsil edebileceği bir histogramın kodunu çözmesi (söylemesi) için hiçbir neden yoktur.

Burada küçük bir kompozit öneriyorum. Sol üst, yatay olarak sunulan bir nokta veya şerit grafiğidir (aynı fikir için en az yirmi başka isim kullanılmıştır) ve sağ üst dikey olarak sunulan aynı fikirdir. Aynı değere sahip örnekler yığınlama ile eşleştirilir.

Altta, Parzen'in anlamında, tacit yatay ölçeğin kümülatif olasılık olduğu (ortak bir jargonda çizim konumu) ve geleneksel medyan ve çeyrekler kutusunun (prensip olarak) yarısının çizilebileceği bir kantil kutu grafiği değerler her zaman bildirildiği gibi kutunun içinde ve dışındaki değerlerin yarısıdır. Buradaki ekstra yatay çizgi ortalamayı temsil eder. Bazı insanlar kutu çizimlerine ekstra nokta veya işaretçi sembolü olarak araçlar ekler; Bu, verileri kendileri göstermeyle çakışabilir ve ekstra bir satır tercih ederim. Medyan çizgisi ve ortalama çizgisi çakışıyorsa, ne yapacağınızı düşünmeniz gerekir. Neredeyse her zaman ortalama ve ortanca fark edilir derecede farklıdır.

Ölçü birimlerini grafikte açık hale getirmek standarttır, ancak ne olduklarını görmüyorum.

resim açıklamasını buraya girin

(Buraya bilerek fazladan bir noktaya değindim, yani grafikler çok küçük ama yine de bilgilendirici olabilir. Pratikte, onları bu kadar küçük yapmazdım.)

DÜZENLE:

Parzenin anlamında kantil kutu grafiklerine geniş çaplı çapraz referanslar eklendi (aşağıdaki ikinci bölümde daha fazla referans; "kuantil kutu grafiklerinin" diğer kullanımları mevcuttur)

Parametrik olmayan veriler ile sıfırların arasındaki farkı nasıl ölçebilirim?

Farklı koşullardan değerlerin gelme olasılığının daha yüksek olduğu noktayı bulmak için kutu grafikleri nasıl kullanılır?

Bağımsız iki örnek t-testi nasıl görselleştirilir?

Mann-Whitney U Testini kullanarak hangi denemenin daha iyi olduğunu nasıl anlarım?

Shera, DM 1991. Veri sunumunu geliştirmek için kantil grafiklerin bazı kullanımları. Bilgisayar Bilimi ve İstatistik 23: 50-53.

Militkı, J. ve M. Meloun. 1993. Tek değişkenli keşif veri analizi için bazı grafik yardımcılar. Analytica Chimica Açta 277: 215-221.

Meloun, M. ve J. Militký. 1994. Analitik kemometride bilgisayar destekli veri tedavisi. I. Tek değişkenli verilerin açıklayıcı analizi. Kimyasal Kağıtlar 48: 151-157.

DÜZENLEME 2:

Bu konuların ana noktası sadece acil soruyu cevaplamak değil, aynı zamanda başkalarını ilgilendirebilecek benzer sorulara değinmektir.

Buradaki diğer cevaplardaki diğer bazı grafik tasarımları, diğer detayların yokluğunda agnostik olarak 1 ... 14 olarak etiketlenmiş tanımlayıcıları gösterir. Bu ve diğer tanımlayıcıların yorumlamada kullanıldığını varsayarsak, bunları göstermek için basit bir tasarım (Cleveland) nokta grafiğidir. Burada, tanımlayıcı sırasına tam anlamıyla (solda) saygı duyulan ve değerlerin sıralandığı (sağ) olduğu birkaç olasılık arasında iki tane vardır. Gerekirse daha uzun etiketler için yeterli alan vardır.

Bu tasarımın çubuk grafiklere göre bir avantajı, yanıt veya sonuç ekseninin, daha iyi bir seçim gibi görünüyorsa sıfır olmayan bir değerle başlayabilmesidir.

Yanıt ekseni dikey olacak şekilde grafikleri döndürmek de kolayca hayal edilebilir.

resim açıklamasını buraya girin


(+1) Bazen nokta veya şerit grafiğini, özellikle dikey olarak yönlendirilmişse, "yığılmış" noktaları sola hizalanmak yerine merkezi olarak hizalanmış olarak gördüm (yani üç yığılmış nokta olsaydı, orta nokta bağlanmamış noktalar). Bu estetik açıdan hoş bir simetri çizgisi verir, ancak pratikte ne kadar yararlı olduğundan emin değilim. Belki de bir kutunun üst üste binmesini kolaylaştırır. Bunun ayrı bir adı var mı, biliyor musunuz? Ve bundan kaçınmak / evlat edinmek için herhangi bir tavsiye var mı?
Silverfish

1
Ayrıca, Parzen'e referans verme şansınız var mı? Bu grafikleri her zaman sevdim ama aslında onlar için uygun bir referans okumadım.
Silverfish

@Silverfish Merkezlenmiş (merkezlenmiş) varyantlar kesinlikle popülerdir ve sıklıkla tartışılır. Küçük sorunlar, bahsettiğiniz gibi, biraz tercih etme eğiliminde olduğum histogram stiline benzeyen bir tasarıma karşı simetri arzusu gibi görünüyor, ancak bu bir zevk ve durum meselesi. Çapraz referanslar ekledim ve karşılığında başkalarını da memnuniyetle karşılarım.
Nick Cox

3

@Nick Cox zaten bazı iyi örnekler verdi, biraz sık kullandığım diğer iki seçenek, noktaları üst üste bindirilmiş veya hafifçe sarılmış kutu grafiği,

resim açıklamasını buraya girin

resim açıklamasını buraya girin

R Kodu ile

times<-c(5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2)
boxplot(times)
points(rep(1,length(times)),times,cex = 3, pch = 'x')

boxplot(times)
points(jitter(rep(1,length(times)),amount = 0.1),times,cex = 3, pch = 'x')

DÜZENLEME: İsterseniz bir keman çizimi de kullanabilirsiniz

ggplot(data.frame(times), aes(x = rep(0,length(times)), y = times)) + geom_violin() + geom_jitter()

resim açıklamasını buraya girin


1
Cevabınız için çok teşekkürler. Örneklemin büyüklüğü nedeniyle analizlerimde kutu grafikleri kullanmakta isteksizdim. Ama farklı ders kitaplarına baktıktan sonra örneklemimin boyutu yeterli görünüyor.
Eamonn

1

Sorunuz bana bu blog yazısında açıklanan tekniği hatırlattı . Kesikli olayların görselleştirilmesi hakkında.

Çekirdek hüner the time before an eventx'i çizmektir the time after an event.

Verileriniz görüntülendi [1]

Bu tesadüfen olabilir, ancak üst orta alana veri yoktur. Yani görünür bir yapı var.


Hızlı ve kirli Rkod.

data <- c(5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2)
x=data[1:12]
y=data[2:13]
plot(x,y, col="white", xlab="Time before an event", ylab="Time after an event"  )
for (i in 1:12) {
    text(x[i],y[i], i)
}

OP 14 ayrı kez dedi. Bunu bir dizi olmadığını ima ederek okudum . Eğer onlar bir seri ise, fikriniz kesinlikle geçerlidir.
Nick Cox

Muhtemelen haklısın. Ancak bunlar bile değil bir dizi grafiği olurdu saatler arasında bağımlılıkları gösterir. Tabii ki eksen etiketleri yanlıştır.
Harald Thomson

2
Sadece OP verilerin tam olarak ne olduğunu açıklığa kavuşturabilir, ancak bu grafiğin her iki şekilde de kazandığını sanmıyorum. Veriler ayrı zamanlarsa, değerlerin verildiği sırada bir anlam olmadığı sürece grafik anlamsızdır.
Nick Cox

fyi textvektör argümanlarını alır - text(x, y, 1:12)çalışmalıdır.
MichaelChirico

1

Başka bir fikir, zaman kullandığınız için.

Bir yarış pisti grafiği - kutupsal koordinatlara sahip bir çubuk grafiği - bir kronometre gibi aynı etkiyi verir:

yarış pisti

İdeal olarak gözlem etiketleri çubukların üzerine veya en azından diğer ucuna yerleştirilir. Şu anda izleyici, herhangi bir karşılaştırma yaparken hangi gözlemin hangisi olduğunu (yukarı / aşağı) takip etmek için ekstra bir zorlamaya sahiptir.


2
Bir eksantrik olarak, gerçekten de tamamen sapkın bir grafik tekniğinin samimi olduğunu düşünmeliyim. Göz, yay uzunluğunu bile görmez, ancak bu şekilde kodu çözülecek bir alanı görür, ancak beyin müdahale etmeli ve sadece dönme açısının bilgilendirici olduğunun altını çizmelidir. Hangi değerlerin birbirinden daha küçük, eşit veya daha büyük olduğunu görmek bile zor bir iştir, ki bu herhangi bir kabul edilebilir grafik stilinde hemen gerçekleşir.
Nick Cox

Sınıflandırma olağandışı tasarım için değilse, bu tasarım için görebildiğim tek artı, # 1 ila # 14 tanımlayıcılarının bu tasarımda hemen olmasıdır. Bu noktayı kendi cevabım için bir düzenlemede aldım.
Nick Cox
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.