K-Means ve EM ile Kümelenme: Bunlar nasıl ilişkilidir?

50

Verileri kümelemek için algoritmalar çalıştım (denetimsiz öğrenme): EM ve k-araçları. Aşağıdakileri okumaya devam ediyorum:

k-aracı, kümelerin küresel olduğu varsayımlarıyla birlikte EM'nin bir çeşididir.

Birisi yukarıdaki cümleyi açıklayabilir mi? Küresel olanın ne anlama geldiğini ve kmeans ve EM'in birbirleriyle nasıl ilişkili olduğunu anlamıyorum, çünkü biri olasılıksal ödevini diğeri ise deterministik bir şekilde yapıyor.

Ayrıca, hangi durumda k-ortalama kümelemeyi kullanmak daha iyidir? veya EM kümelemesi mi kullanıyorsunuz?

— myna
kaynak

Küresel, aynı zamanda model tabanlı kümeleme olarak da bilinen her küme için aynı değişken sapma-kovaryans matrisleri anlamına gelir (gauss dağılımını varsayar). Belirleyici olarak hangi yaklaşımı düşünüyorsunuz?

— chl

2

Alıntı kaynağı verirseniz iyi olurdu.

— ttnphns

1

k-aracı, öklid uzayda kümelerin az ya da çok yuvarlak ve katı (yoğun biçimde uzamış ya da kavisli ya da sadece halkalı olmayan) bulutlar olduğunu kabul eder. Normal dağılımlardan gelmeleri şart değildir . EM bunu gerektiriyor (veya en azından belirli bir dağıtım tipinin bilinmesi gerekiyor).

— ttnphns 18:13

38

K demektir

Sabit, yakınsamadaki belirli bir kümeye bir veri noktası atama.
Optimizasyon yaparken L2 normunu kullanır (Min {Theta} L2 norm noktası ve centroid koordinatları).

EM

Yumuşak kümelere bir nokta atar (bu yüzden herhangi bir merkeze ait herhangi bir noktanın olasılığını verir).
L2 normuna bağlı değildir, Beklentiye, yani belirli bir kümeye ait olan nokta olasılığına dayanır. Bu K-aracını küresel kümelere doğru taraflı kılar.

— Sharan Srinivasan
kaynak

57

"K-aracı algoritması" yok. K-araçları için MacQueens algoritması, k-araçları için Lloyd / Forgy algoritması, Hartigan-Wong yöntemi ...

Ayrıca "EM" algoritması da yok. Olasılıkları tekrar tekrar beklemek ve daha sonra modeli en üst düzeye çıkarmak için genel bir şemadır. EM'nin en popüler çeşidi, modelin çok değişkenli Gauss dağılımları olduğu "Gaussian Mixture Modeling" (GMM) olarak da bilinir.

Biri Lloyds algoritmasının iki adımdan oluştuğunu düşünebilir:

Her nesnenin en muhtemel kümeye atanacak şekilde merkeze atandığı E-adımı.
modelin (= centroids) yeniden hesaplandığı M-adımı (= en küçük kareler optimizasyonu).

... bu iki basamağı yinelemek, Lloyd tarafından yapıldığı gibi, bunu etkili bir şekilde genel EM planının bir örneği yapar. GMM'den farklıdır:

zor bölümleme kullanır, yani her nesne tam olarak bir kümeye atanır
model sadece centroidlerdir, kovaryans veya varyans dikkate alınmaz

— Anony-Mousse
kaynak

k

$k$

k

$k$

10

Birçok kitap, k-anlamını lloyds algoritmasıyla eşittir, fakat k-anlamını asla kullanmadı. MacQueen, k-means adını sundu. Maalesef, birçok kitap burada yanlış adlandırma kullanıyor . k-problemdir, sadece bir popüler çözüm bulur. Aslında R, kmeanları çözmek için varsayılan olarak Hartigan-Wong'u çalıştıracak.

— Anony-Mousse

4

İşte, mplus'ta bunu yapıyor olsaydım, bu yardımcı ve daha kapsamlı cevaplar içeren bir örnek:

Diyelim ki 3 sürekli değişkenim var ve bunlara göre kümeleri tanımlamak istiyorum. Koşullu bağımsızlığı varsayarak (gözlemlenen değişkenler bağımsızdır, küme üyeliği verildiğinde), bir karışım modelini (bu durumda daha spesifik olarak gizli profil model) belirtirim:

Model: 
%Overall%
v1* v2* v3*;  ! Freely estimated variances
[v1 v2 v3];   ! Freely estimated means

Her seferinde farklı sayıda küme belirlerken bu modeli birçok kez çalıştırırdım ve en çok sevdiğim çözümü seçerdim (bunu yapmak kendi başına çok büyük bir konudur).

Daha sonra k-means komutunu çalıştırmak için aşağıdaki modeli belirleyeceğim:

Model: 
%Overall%
v1@0 v2@0 v3@0;  ! Variances constrained as zero
[v1 v2 v3];      ! Freely estimated means

Bu yüzden sınıf üyeliği sadece gözlemlenen değişkenlerin araçlarına olan mesafeye dayanmaktadır. Diğer yanıtlarda belirtildiği gibi, varyansların bununla hiçbir ilgisi yoktur.

Bunu mplus'ta yapmanın güzel tarafı, iç içe geçmiş modellerin olmasıdır ve bu nedenle, iki yöntem arasındaki sınıflandırmadaki uyumsuzluğu karşılaştırmanın yanı sıra, kısıtlamaların daha iyi uyum sağlayıp sağlamadığını doğrudan test edebilirsiniz. Bu modellerin ikisi de, bir EM algoritması kullanılarak tahmin edilebilir, bu nedenle fark gerçekten modelle ilgili.

Üç boyutlu uzayda düşünürseniz, 3 anlamı bir noktaya gelir ... ve bu noktadan geçen bir elipsoidin üç eksenini değiştirir. Üç değişimin tümü aynı ise, bir küre alırsınız.

— DL Dahly
kaynak

Bu örnek için teşekkür ederim. Bazı fikirleri düzeltmek için çok yardımcı olur.

— Myna