K-demektir küme bölümündeki en önemli özelliklerin tahmin edilmesi


19

Veri kümesinin hangi özelliklerinin / değişkenlerinin k-ortalamaları küme çözümü içinde en önemli / baskın olduğunu belirlemenin bir yolu var mı?


1
"Önemli / baskın" ı nasıl tanımlarsınız? Kümeler arasında ayrım yapmak için en faydalı mı demek istediniz?
Franck Dernoncourt

3
Evet en çok kastettiğim şey. Sanırım bunu anlamakla ilgili sorunumun bir kısmı bunu nasıl ifade edeceğidir.
user1624577

Açıklama için teşekkürler. Makine öğrenmesinde bu konuyu belirlemek için alışılmış bir terim özellik seçimidir .
Franck Dernoncourt

Yanıtlar:


8

Burns, Robert P. ve Richard Burns kitabından her özelliğin yararlılığını (= değişken = boyut) ölçmenin bir yolu . SPSS kullanarak işletme araştırma yöntemleri ve istatistikleri. Sage, 2008. ( ayna ), kullanışlılığın özelliklerin kümeleri birbirinden ayırma gücüne sahip olmasıyla tanımlanıyor.

Kümelerimizin ne kadar farklı olduğunu değerlendirmek için genellikle ANOVA kullanarak her bir boyuttaki her küme için ortalamaları inceliyoruz. İdeal olarak, analizde kullanılan tüm boyutlar olmasa da çoğu için önemli ölçüde farklı araçlar elde ederiz. Her bir boyutta gerçekleştirilen F değerlerinin büyüklüğü, ilgili boyutun kümeler arasında ne kadar iyi ayrıldığının bir göstergesidir.

Başka bir yol, belirli bir özelliği kaldırmak ve bunun iç kalite endekslerini nasıl etkilediğini görmek olacaktır . İlk çözümden farklı olarak, analiz etmek istediğiniz her özellik (veya özellik grubu) için kümelemeyi yeniden yapmanız gerekir.

Bilginize:


4
Bağlamda bir gerektiğini eklemek için çok önemlidir değil istatistiksel anlamlılık göstergesi olarak bu F (veya p) değerleri (yani nispi nüfus) almak değil, sadece farklılıkların büyüklük göstergesi olarak.
ttnphns

3

Hangi değişkenlerin hangi kümeler için önemli olduğuna daha fazla odaklanan diğer iki olasılığı düşünebilirim.

  1. Çok sınıflı sınıflandırma. Aynı sınıftaki küme x üyelerine ait nesneleri (örneğin, sınıf 1) ve ikinci sınıftaki diğer kümelerin üyelerine (örneğin, sınıf 2) ait nesneleri düşünün . Sınıf üyeliğini tahmin etmek için bir sınıflandırıcı eğitin (örneğin, sınıf 1'e karşı sınıf 2). Sınıflandırıcının değişken katsayıları, kümelenme nesnelerindeki her değişkenin küme x için önemini tahmin etmeye yarayabilir . Bu yaklaşımı diğer tüm kümeler için tekrarlayın.

  2. Küme içi değişken benzerlik. Her değişken için, her nesnenin kendi sentroidine ortalama benzerliğini hesaplayın. Bir sentroid ve nesneleri arasında yüksek benzerliğe sahip bir değişken, kümelenme işlemi için düşük benzerliğe sahip bir değişkenden daha önemlidir . Tabii ki, benzerlik büyüklüğü görecelidir, ancak şimdi değişkenler her kümedeki nesneleri kümelemeye yardımcı olma derecelerine göre sıralanabilir.


0

İşte çok basit bir yöntem. İki küme merkezi arasındaki Öklid mesafesinin, bireysel özellikler arasındaki kare farkının toplamı olduğuna dikkat edin. Daha sonra kare farkını her özellik için ağırlık olarak kullanabiliriz.

Euclidean Distance

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.