R'deki karışık veriler için sağlam küme yöntemi


12

Küçük bir veri kümesi (4 aralık değişkenleri ve tek bir üç faktörlü kategorik değişken 64 gözlem) küme arıyorum. Şimdi, küme analizinde oldukça yeniyim, ancak hiyerarşik kümelemenin veya k-araçlarının mevcut tek seçenek olduğu günlerden bu yana önemli ilerlemeler olduğunun farkındayım. Özellikle, chl tarafından belirtildiği gibi , "küme veya sınıfların sayısına karar vermek için uyum iyiliği endeksleri" nin kullanılmasını sağlayan yeni model tabanlı kümeleme yöntemleri mevcuttur .

Bununla birlikte, model tabanlı kümeleme için standart R paketi mclustgörünüşte karışık veri türlerine sahip modellere uymayacaktır. fpcModel olacak, ancak model uydurma sorun vardır, çünkü sürekli değişkenlerin olmayan Gauss doğanın şüpheli. Modele dayalı yaklaşıma devam etmeli miyim? Mümkünse R kullanmaya devam etmek istiyorum. Gördüğüm gibi, birkaç seçeneğim var:

  1. Üç seviyeli kategorik değişkeni iki yapay değişkene dönüştürün ve kullanın mclust. Bunun sonuçlara taraflı olup olmayacağından emin değilim, ancak bu benim tercih ettiğim seçenek.
  2. Sürekli değişkenleri bir şekilde dönüştürün ve fpcpaketi kullanın .
  3. Henüz karşılaşmadığım başka bir R paketi kullanın.
  4. Gower'ın ölçüsünü kullanarak bir benzerlik matrisi oluşturun ve geleneksel hiyerarşik veya yer değiştirme kümesi tekniklerini kullanın.

Statistics.se hivemind burada herhangi bir öneriniz var mı?


Kategorik verilerinizi kukla kodluya dönüştürmek için (bir sıcak kodlanmış) dummy.data.frame işlevini kullanabilirsiniz. girdi olarak, karışık verilerinizi verebilir ve çıktı olarak sadece kategorik olanları kodlar.
Naghmeh

Yanıtlar:


7

Gower'ı sonraki hiyerarşik kümeleme ile kullanmanızı öneririm . Hiyerarşik kümeleme az sayıda nesne (64 gibi) için en esnek ve uygun yöntem olmaya devam etmektedir. Kategorik değişkeniniz nominalse, Gower bunu dahili olarak kukla değişkenlere yeniden kodlar ve bunlara temel zar benzerliğini (Gower'ın bir parçası olarak) ekler. Değişkeniniz sıralıysa, Gower katsayısındaki en son sürümün de buna uyduğunu bilmelisiniz.

Kümelerin "en iyi" sayısını belirleyecek sayısız endekse gelince, bunların çoğu bu veya bu kümeleme algoritmasından bağımsız olarak mevcuttur. Bu tür dizinleri zorunlu olarak içeren kümeleme paketleri aramanıza gerek yoktur çünkü ikincisi ayrı paketler halinde bulunabilir. Bir kümeleme paketinden sonra bir dizi küme çözümü bırakır ve bunları başka bir paketin diziniyle karşılaştırırsınız.


Sonunda bu rotaya indim, bahşiş için teşekkürler.
fmark
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.