Çok sayıda eşleştirilmiş veri noktasını grafik olarak göstermenin iyi bir yolu nedir?


9

Benim alanımda, eşlenmiş verileri çizmenin olağan yolu, iki grup için medyan ve medyan CI ile kaplanan bir dizi ince eğimli çizgi segmentidir:

resim açıklamasını buraya girin

Ancak, veri noktası sayısı çok arttıkça bu tür bir arsa okumak çok daha zor hale gelir (benim durumumda 10000 çift düzeninde var):

resim açıklamasını buraya girin

Alfa'yı azaltmak biraz yardımcı olur, ancak yine de harika değil. Bir çözüm ararken bu makaleye rastladım ve bir 'paralel çizgi çizimi' uygulamaya karar verdim. Yine, az sayıda veri noktası için çok iyi çalışıyor:

resim açıklamasını buraya girin

Ancak çok büyük olduğunda bu tür bir arsanın iyi görünmesini sağlamak daha da zor :N-

resim açıklamasını buraya girin

İki grup için dağıtımları ayrı ayrı gösterebilirim, örneğin kutu grafikleri veya kemanlar ve üstte iki medyanı / CI'yi gösteren hata çubukları olan bir çizgi çizdim, ancak bu fikri sevmiyorum çünkü verinin eşleştirilmiş doğası.

Ayrıca bir 2D dağılım grafiği fikrine aşırı meraklı değilim: Daha kompakt bir temsili ve ideal olarak iki grubun değerlerinin aynı eksen boyunca çizildiği bir tanesini tercih ederim. Tamlık uğruna, verilerin 2D bir dağılım olarak nasıl göründüğü aşağıda açıklanmıştır:

resim açıklamasını buraya girin

Çok büyük örneklem büyüklüğü ile eşlenmiş verileri temsil etmenin daha iyi bir yolunu bilen var mı? Beni bazı örneklere bağlar mısınız?

Düzenle

Üzgünüm, aradığım şeyi açıklamak için yeterince iyi bir iş yapmadım. Evet, 2D dağılım grafiği işe yarıyor ve noktaların yoğunluğunu daha iyi iletmek için geliştirilebileceği birçok yol var - Noktaları çekirdek yoğunluğu tahminine göre renk kodlayabilirim, bir 2D histogram yapabilirim , Vb noktalar vb noktaların üzerine kontür çizebilir, ...

Ancak, iletmeye çalıştığım mesaj için bunun aşırıya kaçtığını düşünüyorum. Aslında noktaların 2D yoğunluğunu göstermeyi umursamıyorum - tek yapmam gereken, 'çubuklar' değerlerinin genellikle 'nokta' değerlerinden daha büyük, mümkün olduğunca basit ve net bir şekilde göstermektir ve verilerin önemli eşleştirilmiş doğasını kaybetmeden. İdeal olarak, iki grup için eşleştirilmiş değerleri dikey eksenler yerine aynı eksen boyunca çizmek istiyorum, çünkü bu onları görsel olarak karşılaştırmayı kolaylaştırıyor.

Belki de bir dağılım planından daha iyi bir seçenek yoktur, ancak işe yarayabilecek alternatifler olup olmadığını bilmek istiyorum.


1
barYatay ve dotdikey eksende karşılık gelen değerlerini dağılım grafiği olarak çizmeyi denediniz mi?
kadar Hoffmann

@TillHoffmann Evet, sorumun sonunda bundan bahsettim. Muhtemelen şu anda sahip olduğum en iyi seçenek, ama daha kompakt bir temsili ve ideal olarak her iki grubun değerlerini aynı eksen boyunca temsil eden bir tanesini tercih ederim (belki de makul olmayan bir şekilde talep ediyorum ...). Soruma dağılım grafiğini ekleyeceğim.
ali_m

üzgünüm kaçırdım. Şu anda sentetik verilerinizi nasıl üretiyorsunuz?
kadar Hoffmann

2
Ne demek istediğinizi "kompakt" bir temsil ile açıklayabilir misiniz? Dağılım grafiği, küçük bir alanda ilişkilerin yanı sıra alışılmadık verilerin gösterilmesi bakımından diğerlerinden açıkça daha üstündür; yalnızca veri kümesi boyutu arttıkça daha iyi büyür. (10.000 bir dağılım grafiği için büyük değildir.) O kadar çok farklı grafikten bahsediyorsunuz ki, gerçekten ihtiyacınız olan şeyi çıkarmanız mümkün değil. Lütfen görselleştirmenizin amacını bize bildirin : tam olarak ne tür bilgileri öğrenmeyi veya başkalarına iletmeyi umuyorsunuz? Ne kadar doğru ve hızlı bir şekilde algılanıp anlaşılmayı düşünüyorsunuz?
whuber

1
@whuber Belirsiz olduğum için üzgünüm. Ne umuyordum ki verileri temsil etmenin bir yolu, her iki grup için de değerler ('eğik çizgi' ve 'paralel çizgi' grafiklerinde olduğu gibi) ortogonal eksenler yerine aynı boyunca çizilecekti. Mesaj çok basittir - 'çubuklar' için değerler genellikle 'noktalar' için olanlardan daha yüksektir. Bunun ötesinde, örneklemede çok sayıda çift olduğunu iletmek isterim, ancak dağılımın yoğunluğunu temsil etmekten çok fazla umursamıyorum.
ali_m

Yanıtlar:


7

Amacınızı nasıl anladığımı göz önüne bars - dotsalarak, sadece eşlenmiş farklılıkları ( ) hesaplayıp , bu farklılıkları bir histogram veya çekirdek yoğunluğu tahmin grafiğinde çizerdim. Ayrıca (1) sıfır farkına (2) herhangi bir persentil seçimine karşılık gelen dikey bir çizginin herhangi bir kombinasyonunu ekleyebilirsiniz.

Bu, verilerin hangi bölümünün barsaşıldığını dotsve genellikle gözlemlenen farklılıkların ne olduğunu vurgulayacaktır .

(Ben gerçek, ham değerleri gösteren ilgilenmiyoruz farz ettik barsve dotsaynı arsa içinde.)

Bu farklılıkların anlamlı olup olmadığını göstermek için güven veya posterior güvenilir aralıklar da çizilebilir. (H / T @ MrMeritoloji!)


Bu yanıta ek olarak: Eşleştirilen farklılıklar için, farklılıkların anlamlı olup olmadığını görsel olarak belirten güven aralıklarını da çizebilirsiniz.
MrMeritology

Bu kadar çok çiftle, ​​farkın bu "başlangıç ​​noktasına" bağlı olup olmadığını görmek ilginç olabilir, böylece bir modele sığabilirsin yB=μ+dengelemek(ybir)+Δ(ybir-y¯birhatta ikinci dereceden bir terim bile! Grafik olarak, paisr'i gösterildiği gibi, ancak eğime bağlı olarak azalmış alfa ve renkle çizin.
kjetil b halvorsen

2

Bu kadar çok çiftle, ​​yapıyı daha derinlemesine araştırabilirsiniz. yB-ybir "başlangıç ​​noktasına" bağlıdır ybir!

Gibi bir modele sığabilirsin

yB=μ+dengelemek(ybir)+Δ(ybir-y¯bir)+ε
hatta ikinci dereceden bir terim bile ekleyebilirsiniz +Δ2(ybir-y¯bir)2 veya doğrusal + karesel terimi genelleştirilmiş bir katkı modeli (veya regresyon spline) kullanarak bir spline ile değiştirebilirsiniz.

Grafikleri gösterdiğiniz gibi, azaltılmış bir alfa faktörü (*) ile gösterebilir, belki sadece rastgele bir çizgi örneği göstererek daha da azaltabilirsiniz. Sonra çizgileri eğime göre renklendirebilirsiniz ...

Nick Cox tarafından yapılan bir yorumda bahsedilen Bland-Altman grafikleri için, örneğin , kişi başına birden fazla gözlem içeren yöntemler arasındaki örnek bir Anlaşma'ya bakın veya etikete bakın.

(*) alfa faktörü, grafikte, grafikteki noktaları saydam yapan bir parametredir, bu nedenle, ilk çizilen noktalar, daha sonraki üst çizimle tamamen oluşmaz.


1
Benzer bir ruhla, sanırım, farkı çiziyor (A -B) ortalamaya karşı (A + B) / 2 birçok alanda yaygın bir cihazdır. Tıbbi istatistiklerde sıkışan bir isim "Bland-Altman parselleri" olmasına rağmen, ilgili yazarlar özgünlük iddiasında bulunmadılar ve fikir en azından 1950'lere dayanıyor.
Nick Cox

1

2D dağılım grafiğini tercih ederim. Kalabalık bölgede daha fazla kontrast için referans çizgisini açık gri çizerdim. Kalabalığı hafifletmek için işaretçileri kenarlıksız çizin, alfa'yı daha da azaltın, işaretçi boyutunu azaltın.

Yani daha dağılımının kanatlarında daha tipik çiftleri ilgilenen eğer, çizgi-planlamakla kümülatif toplamı dene dedim dotskümülatif toplamına karşı bars. Çizim hala 2D ama çok daha az mürekkeple. Çizim alanını da kaydetmek için, çerçeveyi referans yönü olarak işlev görecek şekilde izi 45 ° döndürebilirsiniz.

Bu grafik ayrıca verilerde herhangi bir eğilim gösterecektir. Sürecin durağan olduğu biliniyorsa, çiftleri örneğin geometrik ortalamalarına göre sıralayın sqrt(bars*dots).


0

Çizgileri medyan ve çeyrekler için sahip olduğunuz gibi çizmenizi veya bu konuda istediğiniz kadar yüzdelik dilimi çizmenizi tavsiye ederim. Medyan diğer yüzdelik çizgilere göre daha kalın / daha belirgin kalabilir. Bu, halihazırda alanınızda kullanılan grafiğin basitliğinden ve aşinalığından taviz vermeden verilerin dağıtım boyunca nasıl davrandığını görme yeteneğinin korunmasına yardımcı olacaktır.

Ayrıca, böylesine yüksek bir örneklem büyüklüğü ile, merkezi sınır teoreminden çok keyif alacağınız için hata çubuklarıyla ortalama veya ortalama eğilim muhtemelen yeterli olacaktır. Biyomedikal alan da bu eşleştirilmiş çizgi grafiklerine dayanır, ancak bu genellikle örnek büyüklüğü 10-20 mertebesinde olabileceğinden, potansiyel kaldıraç noktalarını görselleştirmek önemlidir.


0

İlk önerim bir dağılım grafiği.

Grafiğinize düzensiz yayılmış 10000 nokta hala belirsiz bir bulutsa, bir ısı haritası düşünün. X = 10.5, y = 11.5'deki pikselin rengi, 10.45 ile 10.55 arasındaki değerin 11.45 ile 11.55 arasındaki bir değere kaç kez eşlendiğini gösterir: 0 = beyaz = RGB (255,255,255), 1 = mavi = RGB (0, 0,255), 2 = RGB (1,0,254), ... 256 ve üstü = RGB (255,0,0) = kırmızı


Bu aslında daha az çözünürlük dışında bir 2D dağılımıyla aynı türden bir temsil sağlıyor. Sonunda böyle bir şey yapabilirim, ancak ideal olarak her iki grubun değerlerini dikey eksenlerden ziyade aynı eksen boyunca çizen daha kompakt bir temsil umuyordum.
ali_m

1
Dağılım planınıza baktığımda, "mürekkep noktanızın" ortasında çok fazla bilgi kaybettiğinizi görüyorum. Bir dönüşüm (logaritma?) Uygulayarak ya da önerdiğim sağlık haritasıyla bir şeyler yapmalısınız.
Dirk Horsten

Afedersiniz! Önerin tamamen makul bir öneri - aradığımı açıklamak için yeterince iyi bir iş yapmadım. Evet, iki boyutlu bir çizim (dağılım, ısı haritası, kontur çizimi vb.) Örnek noktaların yoğunluğunu temsil etmede iyi bir iş çıkarır, ancak bence bu gerçekten göstermekten daha fazla bilgi. Tek yapmam gereken, 'çubuklar' değerlerinin genellikle 'noktalar' değerlerinden daha yüksek olduğunu göstermektir. Verilerin eşleştirilmiş doğasını korurken bunu göstermenin mümkün olan en basit yolunu arıyorum.
ali_m

Katil grafiğindeki köşegen yönü yeterince iyi göstermiyor mu?
Dirk Horsten

Hayır, ama belki de mantıksız beklentilerim var :-)
ali_m
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.