Yanıtlar:
Tek bir doğru görselleştirme yok. Kümelerin hangi yönünü görmek veya vurgulamak istediğinize bağlıdır.
Her değişkenin nasıl katkıda bulunduğunu görmek ister misiniz? Paralel bir koordinat grafiği düşünün.
Kümelerin ana bileşenler boyunca nasıl dağıtıldığını görmek ister misiniz? Bir biplot düşünün (2B veya 3B olarak):
Tüm boyutlarda küme aykırı değerlerini aramak ister misiniz? Küme 1'in merkezinden kümenin merkezinden 2 uzaklığa olan mesafenin dağılım grafiğini düşünün. (K'nin tanımı ile her kümenin çapraz çizginin bir tarafına düşeceği anlamına gelir.)
Kümelemeye kıyasla ikili ilişkileri görmek istiyor musunuz? Küme tarafından renklendirilen bir dağılım grafiği matrisi düşünün.
Küme mesafelerinin özet bir görünümünü görmek ister misiniz? Histogramlar, keman grafikleri veya kutu grafikleri gibi dağıtım görselleştirmelerinin bir karşılaştırmasını düşünün.
Çok değişkenli ekranlar, özellikle bu değişken sayısı ile zor. İki önerim var.
Kümeleme için özellikle önemli olan veya büyük ölçüde ilginç olan bazı değişkenler varsa, bir dağılım grafiği matrisi kullanabilir ve ilginç değişkenleriniz arasındaki iki değişkenli ilişkileri görüntüleyebilirsiniz. Daha fazla boyutsallık eklemek için gelişmiş dağılım grafikleri bile kullanabilirsiniz (örneğin, üçüncü bir değişkenle orantılı boyutta şekiller kullanın).
Alternatif olarak, kümeleme gösteren yüksek boyutlu verileri görüntülemek için geliştirilmiş bir yay grafiği kullanabilirsiniz. Unutmayın, bunu bildiğim literatürde hiç görmedim, ancak çok değişkenli verileri göstermenin çok ilginç bir yolu olduğunu düşünüyorum. Aşağıdaki alıntı, planın başlangıçta önerildiği yerdir.
Hoffman, PE ve diğ. (1997) DNA görsel ve analitik veri madenciliği. IEEE Görselleştirmesinin Bildiri Kitabında. Phoenix, AZ, sayfa 437-441.
Ve işte burada bahsettiğim yer.
Şimdi, adil uyarı, Orange dışında bir bahar arazisi uygulaması bulamadım. Sonra tekrar, o kadar araştırmadım!
Verilerinizin gerçek değerli ve sürekli olduğunu varsayıyorum, eğer ayrık veya aralıklı değilse, bu nedenle, her iki çizimin de yararlı olacağını düşünmüyorum.
R'deki factoextra pacakge'dan fviz_cluster işlevini kullanabilirsiniz. Bu, verilerinizin dağılım grafiğini gösterecek ve noktaların farklı renkleri küme olacaktır.
Anladığım kadarıyla, bu işlev PCA'yı gerçekleştirir ve daha sonra en iyi iki bilgisayarı seçer ve 2D'de çizer.
Cevabımda herhangi bir öneri / iyileştirme en açıktır.