K-anlamına gelen kümeleme Gauss karışım modellemesinin bir biçimiyse, veriler normal olmadığında kullanılabilir mi?


21

Bishop'u GMM için EM algoritması ve GMM ile k-ortalamaları arasındaki ilişki üzerine okuyorum.

Bu kitapta k-means'ın GMM'nin zor atanmış bir versiyonu olduğu söyleniyor. Merak ediyorum ki, kümelenmeye çalıştığım veriler Gauss değilse, k-Ortalamaları kullanamam (ya da en azından kullanmak uygun değil)? Örneğin, veriler her biri 0 veya 1 değerine sahip 8 * 8 pikselden oluşan el yazısı rakamların görüntüleri ise (ve bağımsız olduklarını varsayarsak, Bernoulli karışımı olmalıdır)?

Biraz kafam karıştı ve herhangi bir düşünceyi takdir edeceğim.


2
Normal olmayan verilerde k-ortalamaları kümelemenin geçerli olup olmadığını soruyorsanız, verinin sürekli olduğu varsayılırsa cevap evettir. İkili veriler sürekli değildir. Bazı insanlar sezgisel olarak izin verilebilir, ancak teorik olarak geçersiz olan bu tür veriler üzerinde k-araçları yaparlar.
ttnphns

K-ortalamaları için olasılık modeli yoktur, dolayısıyla geçersiz kılınacak normalite varsayımı yoktur. (yine de iyi çalışacağı anlamına gelmez)
varsayımlar

1
@conjectures Hmm ... Fakat k-menas GMM'ye eşdeğerdir ve GMM normal kabul eder.
eddie.xie

@ttnphns Cevabınız için teşekkürler! Yani sanırım puanları metne aktarmak ve sürekli hale getirmek için TF-IDF kullanırsam o zaman başvurabilirim ve geçerli mi?
eddie.xie

Aniden GMM'nin birkaç gaussianın karışımı (toplamı) olduğunu ve yeterli karışımlar verilen her türlü dağılımı ifade edebilmesi gerektiğini anladım. Bu nedenle, GMM ve K-araçları eşdeğerdir, K-ortalamalarının normal olmayan verileri kullanamayacağı anlamına gelmez, çünkü GMM her türlü dağılımı ifade edebilir. Bu doğru mu?
eddie.xie

Yanıtlar:


20

Tipik EM GMM durumlarında, varyans ve kovaryans dikkate alınır. Bu k-araçlarında yapılmaz.

Ama aslında, k-ortalamaları için popüler sezgisel yöntemlerden biri (not: k-ortalamaları bir algoritma değil, bir problemdir) - Lloyd algoritması - esasen bir EM (algoritma), bir sentroid model (varyanssız) ve sert atamalar kullanarak.

K-demektir stil kümeleme (yani varyans minimizasyonu) yaparken,

  • WCSS (küme içi kareler toplamı) varyans katkısı = kare öklid mesafesini tesadüfen minimize eder
  • Öklid mesafe ile en yakın kümeye tesadüfen atama nesneler, sqrt fonksiyonu monoton (ortalama yaptığı not çünkü değil optimize Öklid mesafeleri, ancak WCSS fonksiyonu)
  • yalnızca bir sentroid kullanan kümeleri temsil eder
  • Voronoi hücre şekilli kümeler, yani çokgenler
  • küresel kümeler ile en iyi şekilde çalışır

argminSΣben=1kΣxjSbenΣd=1D(xjd-μbend)2
S={S1...Sk}kDxjdjd

K-vasıtalarının küresel kümeler olduğu varsayılır. Ayrıca, k-ortalama kümelerinin Voronoi hücreleri olduğu, yani küresel olmadığı da kabul edilmektedir. Her ikisi de doğru ve her ikisi de yanlış. Her şeyden önce, kümeler tam Voronoi hücreleri değil, sadece içindeki bilinen nesnelerdir. Kümeler arasındaki ölü boşluğun her iki kümenin bir parçası olduğunu düşünmeye gerek yoktur, çünkü orada bir nesneye sahip olmak algoritma sonucunu etkileyecektir. Ancak öklid mesafesinin küresel olması nedeniyle buna "küresel" demek daha iyi değildir. K-demek Öklid mesafesini umursamıyor. Tüm bunlar, varyansları en aza indirgemek için bir buluşsal yöntemdir . Ve aslında, k-anlamına gelmesi gereken şey: varyans minimizasyonu.


Daha fazla doğruluk için bazı ifadelerinizi düzeltmenizi öneriyorum. Örneğin, ne minimize squared euclidean distanceveya minimize the variances? "Toplam" veya "havuzda toplanmış" sözcükleri olmalıdır, çünkü 2'den fazla kümemiz var, değil mi?
13:26

BTW, k-means d ^ 2'nin birleştirilmiş küme içi toplamını , ilgili kümedeki nesne sayısına bölünmesiyle en aza indirdiğinden , amacınız coincidentally minimize Euclidean distance, because the sqrt function is monotonekesin olmak gerekirse doğru değildir.
ttnphns

Yakınsamasını ispatlayabileceğiniz uygun objektif fonksiyon, küme içi kareler toplamı olan WCSS'dir . Ve aslında, Öklid mesafelerini en aza indirmez, ancak öksürüğe göre en yakın sentroid mesafesi de WCSS optimal atamasıdır.
Anonim-Mousse-Monica'yı Geri

İfadeleriniz maalesef şüpheli . İfade ne anlama minimize squared Euclidean distance, because WCSS variance contribution = squared euclidean distance geliyor ? " Kümelerdeki nesneler arasındaki kare şeklindeki d'ler en aza indirilir, çünkü sapmaların WCSS'si en aza indirilir" veya sadece "sapmaların WCSS'si en aza indirilir, hangisi - sapmalar - doğaya göre öklid mesafeleri"? Yoksa başka bir şey mi?
ttnphns

1
Açıkçası, k-means sadece verilerinizin bir sentroid modelini istiyorsanız iyi bir seçimdir. Çift mesafeleri optimize etmek istiyorsanız, hiyerarşik kümeleme kullanın.
Anony-Mousse-Monica'yı geri döndür

8

GMM sonsuza kadar uzanan örtüşen tepeler kullanır (ancak pratik olarak sadece 3 sigma için sayılır). Her puan tepelerin tüm olasılık puanlarını alır. Ayrıca, tepeler "yumurta şeklindedir" [tamam, simetrik elipslerdir ] ve tam kovaryans matrisi kullanılarak eğilebilir .

K- , tek bir kümeye bir nokta atamak anlamına gelir , böylece diğer küme merkezlerinin puanları yok sayılır (örtük olarak sıfırlanır / umursamaz). Tepeler küresel sabun köpüğüdür. İki sabun köpüğünün temas ettiği yerde, aralarındaki sınır düz (hiper-) bir düzlem haline gelir. Tıpkı birçok sabun köpüğünden oluşan bir köpüğü üflediğinizde, içerideki kabarcıklar düz değildir, ancak kutudur, bu nedenle birçok (hiper-) küre arasındaki sınırlar aslında alanın bir Voronoi bölümünü oluşturur. 2D'de, bu altıgen yakın ambalaj gibi belirsiz bir şekilde görünme eğilimi gösterir, bir arı kovanını düşünür (tabii ki Voronoi hücrelerinin altıgen olması garanti edilmez). K-tepesi yuvarlaktır ve eğilmez, bu nedenle temsil gücü daha azdır; ancak özellikle yüksek boyutlarda hesaplamak çok daha hızlıdır.

K-araçları Öklid uzaklık metriğini kullandığından, boyutların karşılaştırılabilir ve eşit ağırlıkta olduğunu varsayar. Bu nedenle, X boyutunun saatte mil birimi, 0 ila 80 arasında değişen ve Y boyutunun birimi 0 ila 400 arasında değişen bir birimi varsa ve bu XY alanına daireler ekliyorsanız, bir boyut (ve yayılması) olacak daha güçlü başka boyuttan daha ve sonuçları gölge düşürecektir. Bu nedenle K-ortalamalarını alırken verileri normalleştirmek gelenekseldir .

Hem GMM hem de K-araçları , verilere en iyi yaklaşımları sığdırmak suretiyle verileri modeller . GMM eğik yumurtalara ve K-araçları eğik kürelere uyuyor. Ancak temeldeki veriler herhangi bir şey gibi şekillendirilebilir, spiral veya Picasso resmi olabilir ve her algoritma yine de çalışır ve en iyi görüntüsünü alır. Ortaya çıkan modelin gerçek verilere benzeyip benzemeyeceği, veriyi oluşturan temel fiziksel sürece bağlıdır. (Örneğin, zaman gecikmesi ölçümleri tek taraflıdır; Gausslu iyi bir uyum mudur? Belki.)

R,n

Böylece 8x8 ikili görüntünüz ilk hiper kadranda 64 boyutlu hiperküp olarak yorumlanacaktır. Algoritmalar daha sonra kümeleri bulmak için geometrik analojiler kullanır. K-araçlarıyla uzaklık, 64 boyutlu uzayda Öklid mesafesi olarak görünür. Bunu yapmanın bir yolu var.


Her iki algoritmanın da uzay eksenlerinin tüm noktalarda eşit derecede yoğun olduğunu varsaydığına dikkat edin, bu nedenle üstel, logaritmik veya sinüzoidal olarak değişen verilerin takılması, verileri yaklaşık olarak doğrusal olarak değişen bir alana yeniden eşlemek için tipik olarak bir ön dönüşümden yararlanır.
DragonLord
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.