Küçük bir veri kümesi (4 aralık değişkenleri ve tek bir üç faktörlü kategorik değişken 64 gözlem) küme arıyorum. Şimdi, küme analizinde oldukça yeniyim, ancak hiyerarşik kümelemenin veya k-araçlarının mevcut tek seçenek olduğu günlerden bu yana önemli ilerlemeler olduğunun farkındayım. Özellikle, chl tarafından belirtildiği gibi , "küme veya sınıfların sayısına karar vermek için uyum iyiliği endeksleri" nin kullanılmasını sağlayan yeni model tabanlı kümeleme yöntemleri mevcuttur .
Bununla birlikte, model tabanlı kümeleme için standart R paketi mclustgörünüşte karışık veri türlerine sahip modellere uymayacaktır. fpcModel olacak, ancak model uydurma sorun vardır, çünkü sürekli değişkenlerin olmayan Gauss doğanın şüpheli. Modele dayalı yaklaşıma devam etmeli miyim? Mümkünse R kullanmaya devam etmek istiyorum. Gördüğüm gibi, birkaç seçeneğim var:
- Üç seviyeli kategorik değişkeni iki yapay değişkene dönüştürün ve kullanın
mclust. Bunun sonuçlara taraflı olup olmayacağından emin değilim, ancak bu benim tercih ettiğim seçenek. - Sürekli değişkenleri bir şekilde dönüştürün ve
fpcpaketi kullanın . - Henüz karşılaşmadığım başka bir R paketi kullanın.
- Gower'ın ölçüsünü kullanarak bir benzerlik matrisi oluşturun ve geleneksel hiyerarşik veya yer değiştirme kümesi tekniklerini kullanın.
Statistics.se hivemind burada herhangi bir öneriniz var mı?