Çok boyutlu küme verilerini görsel olarak çizme

18

16 değişkenli bir veri setim var ve kmeans tarafından kümelenmeden sonra iki grubu çizmek istiyorum.

İki kümeyi görsel olarak temsil etmek için hangi grafikleri önerirsiniz?

data-visualization clustering k-means

— Dj_
kaynak

23

Tek bir doğru görselleştirme yok. Kümelerin hangi yönünü görmek veya vurgulamak istediğinize bağlıdır.

Her değişkenin nasıl katkıda bulunduğunu görmek ister misiniz? Paralel bir koordinat grafiği düşünün.

İki küme ve küme aracı için Paralel Koordinatlar

Kümelerin ana bileşenler boyunca nasıl dağıtıldığını görmek ister misiniz? Bir biplot düşünün (2B veya 3B olarak):

Küme biplotu

Tüm boyutlarda küme aykırı değerlerini aramak ister misiniz? Küme 1'in merkezinden kümenin merkezinden 2 uzaklığa olan mesafenin dağılım grafiğini düşünün. (K'nin tanımı ile her kümenin çapraz çizginin bir tarafına düşeceği anlamına gelir.)

resim açıklamasını buraya girin

Kümelemeye kıyasla ikili ilişkileri görmek istiyor musunuz? Küme tarafından renklendirilen bir dağılım grafiği matrisi düşünün.

resim açıklamasını buraya girin

Küme mesafelerinin özet bir görünümünü görmek ister misiniz? Histogramlar, keman grafikleri veya kutu grafikleri gibi dağıtım görselleştirmelerinin bir karşılaştırmasını düşünün.

resim açıklamasını buraya girin

— xan
kaynak

2

Çok değişkenli ekranlar, özellikle bu değişken sayısı ile zor. İki önerim var.

Kümeleme için özellikle önemli olan veya büyük ölçüde ilginç olan bazı değişkenler varsa, bir dağılım grafiği matrisi kullanabilir ve ilginç değişkenleriniz arasındaki iki değişkenli ilişkileri görüntüleyebilirsiniz. Daha fazla boyutsallık eklemek için gelişmiş dağılım grafikleri bile kullanabilirsiniz (örneğin, üçüncü bir değişkenle orantılı boyutta şekiller kullanın).

Alternatif olarak, kümeleme gösteren yüksek boyutlu verileri görüntülemek için geliştirilmiş bir yay grafiği kullanabilirsiniz. Unutmayın, bunu bildiğim literatürde hiç görmedim, ancak çok değişkenli verileri göstermenin çok ilginç bir yolu olduğunu düşünüyorum. Aşağıdaki alıntı, planın başlangıçta önerildiği yerdir.

Hoffman, PE ve diğ. (1997) DNA görsel ve analitik veri madenciliği. IEEE Görselleştirmesinin Bildiri Kitabında. Phoenix, AZ, sayfa 437-441.

Ve işte burada bahsettiğim yer.

Şimdi, adil uyarı, Orange dışında bir bahar arazisi uygulaması bulamadım. Sonra tekrar, o kadar araştırmadım!

Verilerinizin gerçek değerli ve sürekli olduğunu varsayıyorum, eğer ayrık veya aralıklı değilse, bu nedenle, her iki çizimin de yararlı olacağını düşünmüyorum.

— Teague
kaynak

1

R için bir Radviz uygulaması var: cran.r-project.org/web/packages/Radviz/vignettes/…

— pmav99

1

R'deki factoextra pacakge'dan fviz_cluster işlevini kullanabilirsiniz. Bu, verilerinizin dağılım grafiğini gösterecek ve noktaların farklı renkleri küme olacaktır.

Anladığım kadarıyla, bu işlev PCA'yı gerçekleştirir ve daha sonra en iyi iki bilgisayarı seçer ve 2D'de çizer.

Cevabımda herhangi bir öneri / iyileştirme en açıktır.

— Rohit parihar
kaynak