K-demektir kümelerine sınıf etiketi atama


10

Kümeleme hakkında çok temel bir sorum var. Centroid'leri ile k kümeleri bulduktan sonra, kümelediğim veri noktalarının sınıflarını nasıl yorumlayacağım (her kümeye anlamlı sınıf etiketleri atama). Bulunan kümelerin validasyonundan bahsetmiyorum.

Küçük bir etiketli veri noktası seti verilebilir, bu etiketli noktaların hangi kümeye ait olduğunu hesaplayın ve her bir kümenin aldığı noktaların türüne ve sayısına bağlı olarak etikete karar verin mi? Bu oldukça açık görünüyor, ancak kümelere bu şekilde etiket atamanın ne kadar standart olduğunu bilmiyorum.

Açık olmak gerekirse, önce kümelerimi bulmak için herhangi bir etiket kullanmayan denetimsiz kümeleme yapmak istiyorum. Sonra kümeleri bulduktan sonra, birkaç örnek veri noktasının özelliklerine göre kümelere anlamlı sınıf etiketleri atamak istiyorum.


Sorunuzu anladığınızdan emin değilim: genellikle, herhangi bir k-ortalama algoritması her veri noktası için sınıf üyeliği hakkında bilgi döndürmelidir. Gerçek veri noktalarından veya yeni gözlemlerden mi bahsediyorsunuz?
chl

@chi Riyaz'ın kümeleri etiketleyecek isimler bulmaktan endişe duyuyorum ve bazı noktaları adlandıran a priori hakkında konuşuyor ve daha sonra bu kümeleri adlandırmak için kümelerde adlandırılan noktaların üstünlüğünü dikkate alan bir algoritma kullanıyor.
Glen_b-Monica

2
@Riyaz, sorunuzu anlamak için Faktör Analizine aşağıdaki benzetmeyi kullanabilir miyiz? Çoğu zaman, bir grup değişkeni, onları 'birlikte takılıyor' gibi görünen değişken gruplarına kümelemek için faktör analizi yapar, ancak daha sonra analistin, her kümeyi oluşturan isim olmadan w / her kümenin (faktör) ne olduğunu düşünme şekli . Burada esasen bu mu aldın?
gung - Monica'yı eski durumuna getirin

Yanıtlar:


4

Evet. Teklif ettiğiniz şey tamamen standarttır ve standart k-demektir yazılımın otomatik olarak çalışmasının yoludur. K-ortalaması durumunda, her bir gözlem (veri noktası) ile her bir küme ortalaması (centroid) arasındaki öklid mesafesini hesaplar ve gözlemleri en benzer kümeye atarsınız. Daha sonra kümenin etiketi, kümeye sınıflandırılan gözlemlerin ortalama özelliklerinin diğer kümelere göre ortalamalara göre incelenerek belirlenir.


3

Eğer kmeans nesnenizdeki isimlere bakarsanız, bir "küme" nesnesi olduğunu fark edeceksiniz. Bu, giriş verilerinizle aynı şekilde sıralanan sınıf etiketlerini içerir. Küme etiketlerini verilerinize geri bağlayan basit bir örnek.

x <- data.frame(X=rnorm(100, sd=0.3), Y=rnorm(100, mean=1, sd=0.3))

k <- kmeans(x, 2) 
names(k)
x <- data.frame(x, K=k$cluster)

# You can also directly return the clusters
x <- data.frame(x, K=kmeans(x, 2)$cluster)

0

Kümedeki etiketler, bir kümedeki çoğunluk örneklerinin sınıfını temel alabilir. Ancak bu yalnızca kümelerin sayısı sınıf sayısına eşitse geçerlidir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.