Kesikli ve sürekli değişkenler arasındaki ilişkiyi görselleştirmenin en iyi yolu nedir?


19

Arasında bir ilişki göstermenin en iyi yolu nedir:

  • sürekli ve ayrık değişken,
  • iki ayrık değişken?

Şimdiye kadar sürekli değişkenler arasındaki ilişkiye bakmak için dağılım grafikleri kullandım. Ancak kesikli değişkenlerde veri noktaları belirli aralıklarla toplanır. Böylece en iyi uyum çizgisi yanlı olabilir.


4
Ayrık-ayrık durum için, burada sıralı kategorik verilerin çizilmesiyle ilgili biraz ilgili bir sorunun cevabı yardımcı olabilir (muhtemelen sizin durumunuzdaki kutular olmadan). Bu 'önyargı'nın nasıl ortaya çıktığını düşündüğünüzden gerçekten emin değilim; veri noktalarının görsel izlenimini etkiler (satırın olması gerekenden farklı bir yere gitmesini beklemeye yol açar) ancak gerçek verilerin kendisini etkilemez. Akıl yürütmenizi burada açıklayabilir misiniz?
Glen_b-Monica

Yanıtlar:


26

Aşağıda: Özgün çizim yanıltıcı olabilir çünkü değişkenlerin ayrık doğası noktaların çakışmasını sağlar:

resim açıklamasını buraya girin

Bu sorunu aşmanın bir yolu veri sembolüne bir miktar şeffaflık kazandırmaktır:

resim açıklamasını buraya girin

Başka bir yol, bir leke oluşturmak için sembolün yerini hafifçe değiştirmektir. Bu tekniğe "titreme:" denir.

resim açıklamasını buraya girin

Her iki çözüm de doğrusallığı değerlendirmek için düz bir çizgi sığdırmanıza izin verecektir.

Referans için R kodu:

x <- trunc(runif(200)*10)
y <- x * 2 + trunc(runif(200)*10)
plot(x,y,pch=16)
plot(x,y,col="#00000020",pch=16)
plot(jitter(x),jitter(y),col="#000000",pch=16)

1
Güzel cevap. Değişken örnek sayılarına sahip bir kabarcık saçılım grafiği ne olacak? Bu teknikleri büyük bir veri setinde kullanmayı denedim ve alfaların oluşturulması çok uzun sürdü.
Josh

14

Kesikli ve sürekli bir değişken arasındaki ilişkiyi görüntülemek için boxplots kullanırdım. Standart istatistiksel yazılımlarla kutu grafiklerinizi dikey veya yatay yapabilirsiniz, böylece IV veya DV olarak görselleştirmek kolaydır. O ise sadece ayrık değişken (örneğin 1 & 2) ve titreme (sağda not Üst sıra bu değerler bir numara atamak, bir ayrık ve sürekli değişken bir dağılım grafiğini kullanmak mümkün burada ).

En uygun çizginin önyargılı olabileceği yorumuna gelince, sahip olduğunuz şeye bağlıdır. Örneğin, IV değeriniz olarak iki seviyeye ve DV'niz olarak sürekli bir değişkene sahip ayrı bir değişkeniniz varsa, iki yolla bir çizgi çizebilirsiniz ve bu taraflı olmayacaktır. (Bu durumu tipik olarak bir t-testi için uygun olarak düşünürdük, ama aslında bu bir gerileme şeklidir - yani basit bir gerileme örneğidir, cevabımı buraya bakın .) Öte yandan, eğer ayrık bir şeyiniz varsa DV olarak iki düzeyde değişken, standart (EKK) regresyon olacağını uygunsuz (lojistik regresyon çağrısında olacağını) ve en iyi uyum çizgisi önyargılı olacaktır, ancak bir sığdırmak (& arsa) olabilir lowess hattını başlangıçtaki parçası olarak veri araştırması.

İki ayrık değişken arasındaki ilişkiyi görselleştirmek için bir mozaik çizim kullanırdım . Bazı programlamalarda elek grafiği , ilişkilendirme grafiği veya dinamik basınç grafiği de kullanabilirsiniz .


8

İkili bir sonuç değişkeni ile sürekli bir yordayıcı arasındaki ilişki göz önüne alındığında, daha düzgün (daha iyi algılama kapalı, örneğin R'de), daha iyi kullanırım lowess(x, y, iter=0).

R Hmiscpaketinin bir sonraki sürümünde, bu latticetür eğrileri birden fazla öngörücü için çok bölmeli bir ekrana koyan tek bir grafik oluşturabilirsiniz.

summaryRc(heart.attack ~ age + blood.pressure + weight, data=mydata)

1

Basit dağılım grafiklerinden memnun değilseniz, ayrık değişkenin her bir değerine veri noktalarının frekanslarını eklemek isteyebilirsiniz. Bunun nasıl yapılacağı, kullandığınız istatistik programına bağlıdır. İşte Stata için bir örnek . Bunu, iki kategorik değişkenin dağılım grafiğine de uygulayabilirsiniz. Aksi takdirde, bir kutu grafiği veya üst üste getirilmiş çubuk grafikler iyi olabilir, ancak bu gerçekten bu değişkenleri nasıl sunmak istediğinize bağlıdır.


1

Http://www.boekboek.com/xb130929113026 adresindeki iki ikili değişken arasındaki ilişkilendirme için geçerli bir makale buldum - burada, bu makalede, iki ikili değişken arasındaki ilişkinin gücünün bir kısmı olarak ifade edilebileceği kanıtlanmıştır. mükemmel birlik. Bu nedenle şu şekilde mümkün ve tercih edilebilir hale gelir: A değişkeni ile B değişkeni arasındaki ilişki, çağdaş olarak belirtmek yerine örneğin% 50'dir: OR = 9 (yorumlanması kolay değildir) veya gerçek risk = 2 (çağdaş olarak göreceli risk dikkate alınır) aslında bir ilişki, yaygınlık ya da insidans ve pozitifliğin bir fonksiyonu olmasına rağmen bir ilişki ölçüsü olmak için).

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.