Küçük bir veri kümesi (4 aralık değişkenleri ve tek bir üç faktörlü kategorik değişken 64 gözlem) küme arıyorum. Şimdi, küme analizinde oldukça yeniyim, ancak hiyerarşik kümelemenin veya k-araçlarının mevcut tek seçenek olduğu günlerden bu yana önemli ilerlemeler olduğunun farkındayım. Özellikle, chl tarafından belirtildiği gibi , "küme veya sınıfların sayısına karar vermek için uyum iyiliği endeksleri" nin kullanılmasını sağlayan yeni model tabanlı kümeleme yöntemleri mevcuttur .
Bununla birlikte, model tabanlı kümeleme için standart R paketi mclust
görünüşte karışık veri türlerine sahip modellere uymayacaktır. fpc
Model olacak, ancak model uydurma sorun vardır, çünkü sürekli değişkenlerin olmayan Gauss doğanın şüpheli. Modele dayalı yaklaşıma devam etmeli miyim? Mümkünse R kullanmaya devam etmek istiyorum. Gördüğüm gibi, birkaç seçeneğim var:
- Üç seviyeli kategorik değişkeni iki yapay değişkene dönüştürün ve kullanın
mclust
. Bunun sonuçlara taraflı olup olmayacağından emin değilim, ancak bu benim tercih ettiğim seçenek. - Sürekli değişkenleri bir şekilde dönüştürün ve
fpc
paketi kullanın . - Henüz karşılaşmadığım başka bir R paketi kullanın.
- Gower'ın ölçüsünü kullanarak bir benzerlik matrisi oluşturun ve geleneksel hiyerarşik veya yer değiştirme kümesi tekniklerini kullanın.
Statistics.se hivemind burada herhangi bir öneriniz var mı?