Acil durum tabloları için en iyi görselleştirme hangisidir?


22

İstatistiksel açıdan, ki-kare testi ile analiz edilen bir beklenmedik durum tablosunu göstermek için en iyi arsa hangisidir? Soluk bir barplot, yığılmış barplot, heatmap, kontur arsa, titrek dağılım, çoklu çizgi arsa veya başka bir şey mi? Kişi mutlak değerler veya yüzdeler göstermeli mi?

Düzenleme: Veya @forecaster'ın yorumlarda önerdiği gibi, sayı tablosunun kendisi basit bir komplodur ve yeterli olmalıdır.


4
Bazen veri tablosu, grafiklere karşı en iyi görselleştirme yöntemidir. Acil durum tabloları bunun klasik bir örneğidir.
tahminci

1
Önemli olan, her zaman en iyi seçenek olduğu konusunda hemfikir değilim.
rnso,

1
Bu yüzden "bazen" dedim. Tavsiye ederim, Stephen Few's Bana tablolara ayrılmış bir bölümü olan numaraları göster .
tahminci

1
peki, en iyi yöntem göstermek istediğiniz şeye, tablonun ne kadar büyük olduğuna, bazı özellikleri olmadan genişlemesine bağlıdır!
kjetil b halvorsen

3
Stats.stackexchange.com/questions/56322/… 'in çoğu burada uygun görünüyor.
Nick Cox,

Yanıtlar:


9

Burada tek bedene uyan tek bir çözüm olmayacak. Çok basit bir masanız varsa (örneğin, ), masayı sunmak en iyisidir. Gerçek bir rakam istiyorsanız, mozaik araziler (@xan'ın önerdiği gibi) muhtemelen başlamak için güzel bir yer. Elek parselleri, birleşme parselleri ve dinamik basınç parselleri de dahil olmak üzere mozaik parsellere benzeyen başka seçenekler de var (buradaki sorumu inceleyin: Acil durum tabloları için elek / mozaik parsellerine alternatif ); Michael Friendly'nin Kategori Verilerini Görselleştirme kitabı bu konu için iyi (SAS tabanlı) bir kaynak olacaktır ve vcd paketi bu fikirleri R'de uygulamak için iyi bir kaynaktır. 2x2

Tablolarda daha çok sayıda satır ve sütun olduğu için, bence bunların kullanımı zorlaşıyor. Bir yazışma analizi yapmak / çizmek için farklı bir görselleştirme seçeneği vardır . Bir yazışma analizi, beklenmedik durum tablosunun hem satırlarında hem de sütunlarında temel bileşenler analizi yapılmasına benzer. Sonra her ikisi de bir ikiplot ile birlikte çizilir. @ Xan'ın cevabındaki verileri kullanan, R temelli bir örnek:

library(ca)
tab = as.table(rbind(c(28, 4,  0, 56),
                     c(38, 5,  9, 10),
                     c( 6, 6, 14, 13) ))
names(dimnames(tab)) = c("activity", "period")
rownames(tab)        = c("feed", "social", "travel")
colnames(tab)        = c("morning", "noon", "afternoon", "evening")
tab
#         period
# activity morning noon afternoon evening
#   feed        28    4         0      56
#   social      38    5         9      10
#   travel       6    6        14      13
plot(ca(tab))

görüntü tanımını buraya girin

Bu grafiği yorumlamak için, aynı tipteki iki nokta ne kadar yakınsa, bu iki sıra / sütun profili o kadar benzerdir. Ve farklı tiplerdeki iki nokta ne kadar yakınsa, olasılık kütlelerinin o kadar fazla olması kesişimlerini temsil eden hücrededir.

R'de ca paketi var ; Bu skeç ( pdf ) de yardımcı olabilir.


Çok kullanışlı. Görünüşe göre küçük değerlerle başarısız oluyor, örneğin: tt = with (mtcars, tablo (faktör (dişli), faktör (vs))); arsa (yaklaşık (tt)); X [, dim] hata: abonelik sınırları dışında
rnso

Bunun nedeni, faktörlerden birinin (yani factor(vs)) yalnızca iki seviyeye sahip olmasıdır; en az üçe ihtiyacınız var. Dene ttt = with(mtcars, table(factor(gear), factor(cyl))); plot(ca(ttt)).
gung - Reinstate Monica

Farklı faktörler arasındaki ilişkilerin çok iyi gösterilmesi.
rnso

Veya satırları ve sütunları yazışma analizi puanları sırasına göre yeniden düzenledikten sonra tabloyu gösterebilirsiniz.
kjetil b halvorsen

İlginç bir fikir, @kjetilbhalvorsen. Bunu canesneden nasıl alacağımı bilmiyorum, bu yüzden sıfırdan kodladım. Bir hata yapmadığım sürece, satırları c(1,3,2)ve sütunları yeniden sıralarsın c(4,1,3,2). Bunu yaptıktan sonra, burada ne görmem gerektiğini bilmiyorum. Aklında ne var?
gung - Reinstate Monica

11

Farklı görseller farklı özellikleri vurgulamakta daha iyi olacaktır, ancak Mosaic grafikleri genel bir görünüm için iyi çalışıyor (bir şeyin öne çıkıp çıkmadığını kontrol etmek için). Belki de yıpranmış bar arsası ile demek istediğin şey buydu. Çoğu seçenek gibi, bir boyutta diğerlerinden daha iyi olan bağıl frekansları temsil ettikleri için simetrik değildir. Güzel bir özellik, marjinal frekansların da temsil edilmesidir.

görüntü tanımını buraya girin

görüntü tanımını buraya girin


Bu iyi. Hem sayılar hem de oranlar temsil edilmektedir. Rakamlar ayrıca arsaya da koyulabilir. X ekseni öğesinin sırası düzenlenmişse, daha da iyi görünecektir. Soluk derken, yan yana koymak yerine, yan yana kategorilere sahip ortak bir barplot demek istedim (bu sayfadaki position = 'dodge': r-bloggers.com/using-r-barplot-with-ggplot2 ).
rnso

1
+1 Bu tasarım , nispeten basit veriler için genellikle çok iyi çalışıyor ; tersine, literatürde keyfi boyutsal beklenmedik durum tablolarına genişletilebilirliğine çok fazla vurgu yapılmasına rağmen, daha karmaşık veriler için düşünmenin de zor olduğunu gördüm. Yine de hiçbir tasarım bu şartlarda iyi sonuç vermez. Bu örnekle ilgili küçük bir nokta, programınız tarafından önerilen varsayılan "öğleden sonra" ... "öğlen" varsayılan alfabetik sırasını kabul etmiş görünüyorsunuz, buna karşın zaman sırasını korumak daha doğal bir seçenek gibi görünüyor.
Nick Cox

8

"En iyi" arsanın veri setinden, okuyucudan ve amaçtan bağımsız olarak var olmayacağı konusunda hemfikirim. Ölçülen iki değişken için, dağılım grafikleri, belirli amaçlar dışında, diğerlerini uyanık bırakan tasarımlardır, ancak kategorik veriler için böyle bir pazar lideri yoktur.

Buradaki amacım, genellikle yeniden keşfedilen veya yeniden icat edilen basit bir yöntemden bahsetmek, ancak yine de istatistiksel grafikleri kapsayan ders kitaplarında veya kitaplarda bile çoğu zaman göz ardı ediliyor.

İlk önce, xan tarafından gönderilen verilerle aynı verileri kapsayan:

görüntü tanımını buraya girin

Bir isim isteniyorsa, sık sık olduğu gibi, bu bir twoway barchart'dır (bu durumda). Burada başka terimler de kataloglamayacağım, çünkü birden fazla barchart benzer tada sahip ortak bir alternatif. ("Birden fazla çubuk grafiğine" karşı küçük itirazım, "çoklu" nun çok yaygın yığılmış veya yan yana çubuk grafiklerini dışlamamasıdır, oysa "twoway" bana bir satır ve sütun düzenini daha açık bir şekilde ifade eder. Bunu açıklığa kavuşturmak için örnekler alabilir.)

Bu tür bir arsa için artılar ve eksiler de basittir, ancak bazılarını heceleyeceğim. Bu tasarıma düşkün olduğum için (en azından 1930'lara kadar gider), diğerleri daha sert eleştiriler eklemek isteyebilir.

+1. Bu fikir teknik olmayan gruplar tarafından bile kolayca anlaşılabilir . Çubuk yükseklikleri veya çubuk uzunlukları bu örnekte frekansları kodlar. Diğer örneklerde, istediğiniz şekilde, artıkları vb. Hesaplanan yüzdeleri kodlayabilirler.

2. Satır ve sütun yapısı, tablonunkine uyuyor . Siz de sayısal değerler ekleyebilirsiniz. Çok küçük miktarlar ve hatta örtük sıfırlar açıkça belirgindir; bu, diğer tasarımlarda her zaman böyle değildir (örneğin, yığılmış çubuk grafikler, mozaik grafikler). Satır ve sütun etiketleme, genellikle gerekli olan zihinsel “ileri geri” ile, bir anahtar veya göstergeyi eklemekten daha etkilidir. Bu nedenle, bu tasarım, bazı okurları görünüşte zorlaştıran grafik ve tablo fikirlerini hibritler; tam tersine, Şekiller ve Tablolar arasındaki güçlü ayrımların sadece tarihi kesimler olduğunu, araştırmacıların kendi belgelerini hazırlayabildiklerini ve tasarımcılara, bestecilere ve yazıcılara güvenmek zorunda olmadıklarına değiniyorum.

3. Üç yollu ve daha yüksek tasarımlara genişletmeler prensip olarak kolaydır . İki veya daha fazla değişkeni, eksenlerin her ikisine veya her ikisine de bileşik değişkenler olarak yerleştirin veya bu tür grafiklerin bir dizisini verin. Doğal olarak, tasarım ne kadar karmaşık olursa, yorum o kadar karmaşıktır.

4. Tasarım açıkça her iki eksende sıra değişkenlerine izin verir . Sıra, (örneğin) uygun gölgelendirmenin yanı sıra o eksendeki kategorilerin sıralaması ile de ifade edilebilir. Eksenler üzerindeki kategori düzeni, anlamlarına göre belirlenebilir veya frekanslarla daha iyi belirlenebilir; metin etiketlerine göre alfabetik sıraya göre bir varsayılan olabilir, ancak asla dikkate alınan tek seçenek olmamalıdır.

-1. Tasarımda genel olarak, arsa, belirli ilişkilerin gösterilmesinde daha az etkili olabilir . Özellikle, bir mozaik arsa bağımsızlıktan kalkışları çok net bir şekilde gösterebilir. Tersine, kategorik değişkenler arasındaki ilişkiler karmaşık veya belirsiz olduğunda, o zaman tipik olarak hiçbir grafik bu zayıf durumdan daha fazlasını göstermede iyi değildir.

-2. Bazı açılardan tasarım, mekanın kullanımında, ne sıklıkta veya ne sıklıkta olursa olsun her çapraz kombinasyon için yer bırakarak yetersiz kalmaktadır . Bu, bir erdem olarak kabul edilen aynı ilkenin yardımcısıdır. Boşluklar üzerindeki özel tasarım, frekanslarına bakılmaksızın eşit kategoriler; bunun çok fazla değer verdiğim okunabilir marjinal etiketleri feda eden fedakarlık. Bu örnekte, metin etiketlerinin hepsi çok kısa olur, ancak bu tipik olmaktan uzaktır.

Not: xan'ın verileri yalnızca keşfedilmiş gibi görünüyor, bu yüzden diğer cevaplarda denenmekten daha fazla bir yorum yapmayacağım. Fakat bazı ev bilgeliği burada son sözü hakediyor: sizin için en iyi tasarım, size ve okuyucularınıza değer verdiğiniz bazı gerçek verilerin yapısını en iyi yansıtan tasarımdır.

Diğer örnekler

3 kategorik değişken arasındaki ilişkiyi nasıl görselleştirebilirsiniz?

İki sıra değişken arasındaki ilişkinin grafiği


1
Uygulanabilir başka bir seçenek ve bazı harika tartışmalar için +1. Olası bir dezavantajı 2 yönlü barikatlar / nokta hakkında bir soru sormama izin verin: Barların çizilebileceği işaretlenmemiş, ancak açıkça algılanabilir bir 'kutu' var. Çubuk kutunun üstüne yaklaştığında,% 100'e ulaşır. Bu değer nasıl belirlenir? (Not, beklenmedik durum tabloları her zaman bir anlamda çok terimlidir, bilinen bir toplamı vardır.) Kutu sıra toplamlarının veya sütun toplamlarının tepesini yapmak farklı algısal çıkarımları teşvik edecektir. (Tablo toplamının kullanılmadığı görülüyor, çünkü birçok bar ayırt etmek için çok küçük olacak.)
gung - Reinstate Monica

1
@gung Teşekkürler. Burada kullanılan kendi Stata programım hakkında ve CV'deki başka bir yerdeki örneklerimde yorum yapabilirim. Program tabplotSSC'den. Çubukların yüksekliği mutlaka en uzun veya en uzun çubuğun yüksekliğinin bir kısmıdır; bunun için mevcut alan kaç tane satır gösterildiğine göre belirlenir. Kullanıcı, varsayılan boşluk boyutunu geçersiz kılabilir, ancak daha sonra birbirine dokunma veya tıkanma çubuklarını tehlikeye atar. Çubuklar pozitif olduğu kadar negatif de olsa, işler kolay değildir. Aynı kısıtlamanın başka herhangi bir programla ısırdığını hayal ediyorum. Kısacası, dokunmayan çubuklar beyaz boşluk anlamına gelir!
Nick Cox

8

@ Gung ve @ xan'ın cevaplarını tamamlamak için, işte vcdR'de kullanılan mozaik ve dernek parsellerine bir örnek.

> tab
        period
activity morning noon afternoon evening
  feed        28    4         0      56
  social      38    5         9      10
  travel       6    6        14      13

Arsaları elde etmek için:

require(vcd)
mosaic(tab, shade=T, legend=T)
assoc(tab, shade=T, legend=T)

görüntü tanımını buraya girin

görüntü tanımını buraya girin

İkisi de sezgisel olarak beklenen frekanslardan ayrılıyor ... Varsayılan, karşılıklı bağımsızlık modelidir , ancak argüman yoluyla değiştirilebilir (örn. Net bir yanıt değişkeni varsa ortak bağımsızlığa ) expected.

Ayrıca bakınız:

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.