Üç grup arasındaki birçok orandaki farklılıklar en iyi nasıl görselleştirilir?


18

Üç farklı haber yayınının farklı konuları nasıl kapsadığını görsel olarak karşılaştırmaya çalışıyorum (bir LDA konu modeli ile belirlenir). Bunu yapmak için iki yöntemim var, ancak meslektaşlardan bunun çok sezgisel olmadığı konusunda çok sayıda geri bildirim aldım. Birisinin bunu görselleştirmek için daha iyi bir fikri olduğunu umuyorum.

İlk grafikte, her yayındaki her konunun oranlarını şu şekilde gösterdim:

Tüm konular ve yayınlar için oranlar

Bu, konuştuğum neredeyse herkes için oldukça basit ve sezgisel. Ancak yayınlar arasındaki farkları görmek zor. Hangi gazete hangi konuyu daha fazla ele alıyor?

Bunu elde etmek için, en yüksek ve en yüksek ikinci konuya sahip yayın arasındaki farkı, en yüksek yayınla renklendirdim. Bunun gibi:

Birinci ve ikinci en yüksek konular arasındaki fark

Örneğin, futbol için büyük bar, gerçekten Ahram İngilizce ve Daily News Egypt (futbol kapsamında 2 numara) arasındaki mesafedir ve Al-Ahram # 1 olduğu için kırmızı renktedir. Benzer şekilde, denemeler yeşil çünkü Mısır Bağımsız en yüksek orana sahip ve bar boyutu Mısır Bağımsız ve Daily News Mısır (yine # 2) arasındaki mesafedir.

İki paragrafın hepsinin, grafiğin kendi kendine yeterlilik testini geçemediğinden oldukça emin bir işaret olduğunu açıklamam gerekiyor. Sadece ona bakarak gerçekten neler olduğunu anlatmak zor.

Her bir konu için baskın yayının nasıl daha sezgisel bir şekilde vurgulanacağı hakkında genel bir öneriniz var mı?

Düzenleme: Oynatılacak veriler: Burada dputR'nin yanı sıra bir CSV dosyası çıktısı var .

Düzenleme 2: İşte noktaların çapları, korpustaki konunun oranına (konuların başlangıçta nasıl sıralandığı) orantılı olarak orantılı olan bir ön nokta çizimidir. Yine de biraz daha ince ayar yapmam gerekse de, daha önce yaptığımdan çok daha sezgisel geliyor. Herkese teşekkürler!

Nokta grafiği


1
Az önce bazı veriler ekledim (R ve CSV için). Renk kör sorunlarının farkında olduğum halde henüz iyi renkler seçmeyi bitirmedim (dolayısıyla Christmasy kırmızı / yeşil) :)
Andrew

1
"Orantılar" dan bahsetmek burada veriler kırmızı bir ringa balığıdır, çünkü veriler gerçekten orantılar değildir ve daha da önemlisi, şu ana kadar grafiksel çözümlerin hiçbiri oranların verilere bağlı değildir. Bu iyidir çünkü çözümler çok çeşitli verilerle ilişkilidir, ancak yanıltılmaz.
Nick Cox

(+1) İndirilebilir veri seti ve hızlı takip dahil güzel bir soru!
chl

Andrew, son düzenlemenizle ilgili olarak, dikey ızgara çizgileriyle daha iyi olacağını düşünüyorum. Bir denetleyici deseni oluştururlar, ancak grafikten kesin değerleri okumakla ilgilenmediğinizi varsayarak fazla değer katmazlar.
xan

Dikey çizgiler olmadan ?
Andrew

Yanıtlar:


18

Verileri erişilebilir hale getirdiğiniz ve ilginç bir veri kümesi ve grafiksel zorluk için teşekkür ederiz.

Benim ana önerim (Cleveland) nokta grafiğidir.

resim açıklamasını buraya girin

Vurgulamak istediğim en önemli detaylar:

  1. Burada üst üste binme karşılaştırmaya izin verir ve kolaylaştırır.

  2. Ekranlarınızdaki konuların sırası oldukça keyfi görünüyor. Doğal bir düzen yoksa (örn. Zaman, mekan, düzenli bir değişken) Bir çerçeve sağlamak için her zaman değişkenlerden birini sıralarım. Hangisinin kullanılacağı, bir araştırmacının kararının özellikle ilginç veya önemli olup olmadığı meselesi olabilir. Başka bir olasılık, benzer kapsama alan konuların bir ucunda ve diğer ucunda farklı kapsama alan konuların bildirilmesi için bildiriler arasındaki farklılıkların bir ölçüsünü sıralamaktır.

  3. Açık işaretçiler veya nokta sembolleri, üst üste binme veya kimliğin kapalı veya katı işaretçilerden veya sembollerden daha iyi çözülmesine izin verir, bu da en kötü durumlarda birbirini gizleyen veya tıkayan. (Burada oldukça işe yarayabilecek bir alternatif, üç gazete için A, D ve I gibi mektuplardır.)

Tasarımımı geliştirmek için çok fazla alan var. Örneğin, yazı çok büyük ve / veya çok ağır mı? Öte yandan, başlıklar kolayca okunabilir olmalıdır, aksi takdirde grafik bir başarısızlıktır.

Daha küçük, pickier noktaları:

a. Grafiğinizdeki kırmızı ve yeşil, kaçınılması gereken bir renk kombinasyonudur. Farklı işaretler kullanıldığında, renk seçenekleri biraz daha az önemlidir.

b. Grafiğinizdeki yatay keneler dikkat dağıtıcı. Buna karşılık, benimki ızgara çizgilerine ihtiyaç var, ancak ince, hafif çizgiler kullanarak onları rahatsız etmemeye çalışıyorum.

x

Cleveland nokta grafikleri en çok borçlu

Cleveland, WS 1984. Veri sunumu için grafiksel yöntemler: tam ölçek araları, nokta grafikler ve çok merkezli günlük kaydı. Amerikalı İstatistikçi 38: 270-80.

Cleveland, WS 1985. Grafik veri unsurları. Monterey, CA: Wadsworth.

Cleveland, WS 1994. Grafik veri unsurları. Zirve, NJ: Hobart Yayınları.

Bir öncü (oldukça farklı işler için istatistiksel olarak daha ünlü !!!)

Pearson, ES 1956. İstatistik geometrisinin bazı yönleri: matematiksel istatistik teorisi ve uygulamasını anlamada görsel sunumun kullanılması. Kraliyet İstatistik Kurumu Dergisi A 119: 125-146.

İlgilenenler için grafik .csv'de kodla okuduktan sonra Stata'da hazırlandı

graph dot (asis) prop , over(pub) over(label, sort(1)) asyvars 
marker(1, ms(Oh)) marker(2, ms(+)) marker(3, ms(Th)) linetype(line)   
lines(lc(gs12) lw(vthin)) scheme(s1color) 

Bu harika - teşekkürler! Yüzdeler maalesef hiçbir şey katmıyor çünkü değerler büyük bir belge grubundan standartlaştırılmış araçlardır (yani her yayındaki her belge, LDA tarafından keşfedilen 20 konunun bir kombinasyonundan oluşur — bu normalleştirilmiş araçları gösterir… dolayısıyla küçük sayılar)
Andrew

Ayrıca, konular korpus içindeki oranlarına göre sıralanır. Mısır yönetişimi en sık görülen konudur, çeşitli ise en nadir konudur. Ancak bu düzeni burada kullanmak, noktaların / simgelerin görsel olarak takip edilmesini biraz zorlaştırır.
Andrew

Bu harika! Teşekkürler! Orijinal yayını, önerilerinizi yansıtacak ve corpus oranlarını ekleyecek şekilde güncelledim.
Andrew

(+6) Güzel cevap! Referanslar ve tekrarlanabilir kodlara sahip olmak her zaman iyidir.
chl

@chl Değerli yorumlar ve ekstra itibar için çok teşekkürler.
Nick Cox

14

Nick Cox'un nokta arsası muhtemelen tüm resim için en iyisidir. İlk ve ikinci ilişkiyi gerçekten vurgulamak istiyorsanız, grafikte, fark çubuğunu ikinci çubuğun uzunluğuyla dengeleyen bir değişiklik.

resim açıklamasını buraya girin

Farklı bir büyük resim görünümü için, eğim grafiği veya paralel koordinat grafiği gibi bir şey deneyebilirsiniz. Çizgiler burada biraz fazla kalabalık olabilir, ancak konuların bir alt kümesini vurgulamak istiyorsanız işe yarayabilir.

resim açıklamasını buraya girin

Ayrıca, bunun gibi çok spesifik veri viz sorularına yönelik helpmeviz.com'u deneyebilirsiniz .


İlginç! Dakika noktası: Eksen başlığı veya "orantı" etiketi% birimleriyle eşleşmiyor.
Nick Cox

Ooh, bu gerçekten ilginç. Nokta grafiğini tamamlayıp tamamlayamayacağını görmek için bununla oynayacağım.
Andrew

2

İlk içgüdüm bir Mozaik arsa önermekti ; her alt kategoriyi bir dikdörtgen olarak grafiklendirir; burada bir boyut ana kategori için toplam sayıyı, diğer boyut da alt kategorinin oransal payını temsil eder. Orada onları çizmek için bir R paketi , ama aynı zamanda oldukça düşük seviyeli grafik çizme araçları ile ilgisi basittir.

Bununla birlikte, boyutlarda karşılaştırmak istediğiniz boyutta yalnızca 2 veya 3 kategori varsa mozaik grafikleri (yüzde tabanlı yığılmış çubuk grafikler gibi) en iyi sonucu verir. Üç gazetenin her birinde yer alan makalelerin oranındaki konular arasındaki farklılıkları karşılaştırmak , ancak amaçladığınız kullanım için çok fazla değil, her bir konunun kapsama oranı bakımından üç gazete arasındaki farkları karşılaştırmak isterseniz iyi çalışırlar . İnce ama önemli bir ayrım!

Vurgulamak istediğiniz şey için, en etkili grafiğin en basitlerinden biri olduğunu düşünüyorum - gruplanmış bir çubuk grafik. Çubuk grafikleri nokta grafiklerden daha fazla insan anlıyor; bir bakışta, farklı boyuttaki miktarları karşılaştırdığınızı ve karşılaştırmak istediğiniz değerlerin yan yana olduğunu görebilirsiniz.

Bununla birlikte, orantılı farklılıkları gerçekten vurgulamak istiyorsanız, her grubu konumlandırmak için değiştirilmiş, kategori başına medyan değerin sıfır değerleri yerine eksenle hizalanması için özel bir gruplandırılmış çubuk grafik oluşturabilirsiniz:

                  Difference in proportion of coverage
                     per Newspaper,
                     relative to category median 
                     (narrow bars)
    ____-0.1%____0_____0.1%____0.2%_____
                 |
        |********|*****
A       |~~~~~~~~|
        |####    |
                 |
            |****|**********
B           |~~  |
            |####|
                 |
         |*****  |
C        |~~~~~~~|~~~~~
         |#######|
                 |
     |***        |
D    |~~~~~~~~~~~|
     |###########|##
                 |
0.2%_____0.1%____0_____
Median proportion of coverage 
   per category, all papers
   (large bars)

Her gruptaki çubukların boyutun kolay karşılaştırılması için hala hizalandığına ve her bir grubun taban çizgisinin artık bu grubun medyan değerine göre eksenin soluna yerleştirildiğine dikkat ederken , eksenin sağına yansıtılan çubuklar eşdeğerdir. ilk iki kategori arasındaki farkı gösteren ikinci çubuk grafiğinize ekleyin.

Yukarıdaki gibi standart bir gruplanmış çubuk grafik veya ofset ayarlı bir grafik kullanmanıza bakılmaksızın, yine de mozaik grafiklerden bir fikir alabilir ve her çubuğun genişliğini o gazetenin toplam makale sayısıyla orantılı yapabilirsiniz (böylece çubuk, o kategorideki o gazetedeki makale sayısıyla orantılıdır).

Test istatistiğiniz tek tek değerlerin değil , her karşılaştırmanın bir özelliği olduğundan , her veri noktasını önemine göre ölçeklemenin yararlı olduğunu düşünmüyorum. Bunun yerine, her gruplamanın yanında önemi temsil eden bir simgeye sahip olurdum. Akademik yayın için, standart */ **/ ***aşinalık avantajına sahiptir, ancak istatistiğin tam sürekliliğini göstermek istiyorsanız yaratıcı olabilirsiniz.


Buradaki ana fikir çubukları dikey olarak gruplandırmaktır. Bu yaygın olarak kullanılan bir tasarımdır, ancak posterin orijinalinde 20 yerine dikey olarak 60 çubuk anlamına gelir. Çubuk genişliğini açıkça değiştirebilmenize rağmen, bu durumda, özellikle gruplar arasında boşluk eklemek istediğinizde, bunu yapmak için daha fazla alana ihtiyacınız olacağını düşünüyorum.
Nick Cox

@NickCox Bu, daha kompakt orijinal grafiğe kıyasla bir dezavantajdır, ancak yatay bir şekil genel düzeninize uygunsa tüm grafiği 90 derece döndürebilirsiniz.
AmeliaBR

Yapabilirsiniz, ancak 60 çubuk soldan sağa da zor ve "Müslüman Kardeşler ve politika" gibi 20 etiketin okunabilir kalması gerekecek ...
Nick Cox

Bir gruptaki çubukları yan yana değil, üst üste yerleştirerek çalıştırabilirsiniz. Bir mockup görmeden söylemek zor (ve ASCII sanatım görünüşü ve hissi iletmede çok iyi değil). Daha az sezgisel olurdu, çünkü tanıdık bir yapı değildir ve iki çubuk hemen hemen aynı yükseklikte karışıklığa yol açabilir. Ancak alternatif tek piksel genişliğinde çubuklarsa ...
AmeliaBR

Yani, bir nokta grafiğindeki cevabımdaki öneriye yaklaşıyorsunuz.
Nick Cox

1

Bir kabarcık grafiği denediniz mi? https://code.google.com/apis/ajax/playground/?type=visualization#bubble_chart

Tek tek konular daireler olabilir ve her daire, her haber çıkışının konuyu kapsadığı yüzdenin pasta grafiği olabilir. Çemberin boyutu, konunun göreceli kapsamını gösterebilir. örneğin, yağ hakkında kültürden daha fazla toplam yazı yazılırsa, yağ dairesi daha büyük bir çapa sahiptir.


Ne olurdu [X,Y]koordinatlar o zaman?
Nick Stauner

1
@NickStauner Başlangıçta bu yanıtı verdiğimde veri setinde düzenlenen soruyu görmedim. Koordinatlar sayı yayınlarından başka bir anlam ifade etmiyordu. Daireler konuya veya çap boyutuna göre kümelenebilir. İlk etapta yüzdelerin neden kullanıldığını bilmiyorum çünkü sayılar çok küçük.
rocinante
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.