Küme analizlerini açıklamaya çalışırken, insanların süreci değişkenlerin ilişkili olup olmadığı ile ilgili olarak yanlış anlamaları yaygındır. İnsanları bu karışıklığı aşmanın bir yolu şöyledir:
Bu, kümelerin olup olmadığı sorusu ile değişkenlerin ilişkili olup olmadığı sorusu arasındaki farkı açıkça göstermektedir. Ancak, bu sadece sürekli veri ayrımını gösterir. Kategorik verilerle bir analog düşünürken sorun yaşıyorum:
ID property.A property.B
1 yes yes
2 yes yes
3 yes yes
4 yes yes
5 no no
6 no no
7 no no
8 no no
İki açık küme olduğunu görebiliriz: hem A hem de B mülküne sahip olan ve hiçbiri olmayan insanlar. Bununla birlikte, değişkenlere bakarsak (örneğin, ki-kare testi ile), bunlar açıkça ilişkilidir:
tab
# B
# A yes no
# yes 4 0
# no 0 4
chisq.test(tab)
# X-squared = 4.5, df = 1, p-value = 0.03389
Yukarıdaki sürekli verilerle kategorik verilerle bir örnek oluşturma konusunda bir kayıp olduğumu düşünüyorum. Değişkenler de ilişkili olmadan tamamen kategorik verilerde kümeler olması mümkün müdür? Değişkenlerin ikiden fazla düzeyi varsa veya daha fazla sayıda değişkeniniz varsa ne olur? Gözlemlerin kümelenmesi, değişkenler arasında tersine ilişki gerektiriyorsa, bu sadece kategorik verileriniz olduğunda kümelemenin gerçekten yapmaya değmeyeceği anlamına gelir mi (yani, sadece değişkenleri analiz etmelisiniz)?
Güncelleme: Orijinal sorudan çok şey ayırdım çünkü sadece küme analizlerine aşina olmayan birine bile hemen sezgisel olabilecek basit bir örneğin yaratılabileceği fikrine odaklanmak istedim. Ancak, kümelenmenin mesafelerin ve algoritmaların vb. Seçimlerine bağlı olduğunu biliyorum. Daha fazlasını belirtirsem yardımcı olabilir.
Pearson korelasyonunun gerçekten sadece sürekli veriler için uygun olduğunun farkındayım. Kategorik veriler için, ki-kare testi (iki yönlü olasılık tablosu için) veya log-lineer modeli (çok yönlü olasılık tabloları için) kategorik değişkenlerin bağımsızlığını değerlendirmenin bir yolu olarak düşünebiliriz.
Bir algoritma için, hem sürekli duruma hem de kategorik verilere uygulanabilen k-medoid / PAM kullandığımızı hayal edebiliriz. (Sürekli örneğin arkasındaki amacın bir kısmının, makul bir kümeleme algoritmasının bu kümeleri algılayabilmesi ve eğer değilse, daha uç bir örneğin oluşturulması mümkün olduğuna dikkat edin.)
Mesafe anlayışı ile ilgili. Sürekli örnek için Öklid olduğunu varsaydım, çünkü saf bir izleyici için en temel şey olurdu. Kategorik veriler için benzer olan mesafenin (en derhal sezgisel olacağı şekilde) basit eşleşme olacağını düşünüyorum. Ancak, bu bir çözüme veya sadece ilginç bir tartışmaya yol açıyorsa, diğer mesafelerin tartışmasına açıkım.
[data-association]
etiketi eklediniz . Ne göstermesi gerektiğinden emin değilim ve alıntı / kullanım kılavuzu yok. Bu etikete gerçekten ihtiyacımız var mı? Silmek için iyi bir aday gibi görünüyor. CV'ye gerçekten ihtiyacımız varsa ve bunun ne olması gerektiğini biliyorsanız, en azından bir alıntı ekleyebilir misiniz?