Veri kümesinin hangi özelliklerinin / değişkenlerinin k-ortalamaları küme çözümü içinde en önemli / baskın olduğunu belirlemenin bir yolu var mı?
Veri kümesinin hangi özelliklerinin / değişkenlerinin k-ortalamaları küme çözümü içinde en önemli / baskın olduğunu belirlemenin bir yolu var mı?
Yanıtlar:
Burns, Robert P. ve Richard Burns kitabından her özelliğin yararlılığını (= değişken = boyut) ölçmenin bir yolu . SPSS kullanarak işletme araştırma yöntemleri ve istatistikleri. Sage, 2008. ( ayna ), kullanışlılığın özelliklerin kümeleri birbirinden ayırma gücüne sahip olmasıyla tanımlanıyor.
Kümelerimizin ne kadar farklı olduğunu değerlendirmek için genellikle ANOVA kullanarak her bir boyuttaki her küme için ortalamaları inceliyoruz. İdeal olarak, analizde kullanılan tüm boyutlar olmasa da çoğu için önemli ölçüde farklı araçlar elde ederiz. Her bir boyutta gerçekleştirilen F değerlerinin büyüklüğü, ilgili boyutun kümeler arasında ne kadar iyi ayrıldığının bir göstergesidir.
Başka bir yol, belirli bir özelliği kaldırmak ve bunun iç kalite endekslerini nasıl etkilediğini görmek olacaktır . İlk çözümden farklı olarak, analiz etmek istediğiniz her özellik (veya özellik grubu) için kümelemeyi yeniden yapmanız gerekir.
Bilginize:
Hangi değişkenlerin hangi kümeler için önemli olduğuna daha fazla odaklanan diğer iki olasılığı düşünebilirim.
Çok sınıflı sınıflandırma. Aynı sınıftaki küme x üyelerine ait nesneleri (örneğin, sınıf 1) ve ikinci sınıftaki diğer kümelerin üyelerine (örneğin, sınıf 2) ait nesneleri düşünün . Sınıf üyeliğini tahmin etmek için bir sınıflandırıcı eğitin (örneğin, sınıf 1'e karşı sınıf 2). Sınıflandırıcının değişken katsayıları, kümelenme nesnelerindeki her değişkenin küme x için önemini tahmin etmeye yarayabilir . Bu yaklaşımı diğer tüm kümeler için tekrarlayın.
Küme içi değişken benzerlik. Her değişken için, her nesnenin kendi sentroidine ortalama benzerliğini hesaplayın. Bir sentroid ve nesneleri arasında yüksek benzerliğe sahip bir değişken, kümelenme işlemi için düşük benzerliğe sahip bir değişkenden daha önemlidir . Tabii ki, benzerlik büyüklüğü görecelidir, ancak şimdi değişkenler her kümedeki nesneleri kümelemeye yardımcı olma derecelerine göre sıralanabilir.