Standart ve küresel k-ortalama algoritmaları arasındaki fark


28

Standart ve küresel k-ortalama kümeleme algoritmaları arasındaki temel uygulama farkının ne olduğunu anlamak isterim.

Her adımda, k-aracı eleman vektörleri ve küme centroidleri arasındaki mesafeleri hesaplar ve ortağı en yakın olan bu kümeye belgeyi yeniden atar. Daha sonra, tüm centroidler yeniden hesaplanır.

Küresel k araçlarında, tüm vektörler normalize edilir ve mesafe ölçümü kosinüs farklılığıdır.

Hepsi bu mu, yoksa başka bir şey mi var?

Yanıtlar:


23

Soru:

Klasik k araçları ve küresel k araçları arasındaki fark nedir?

Klasik K araçları:

Klasik k anlamında, küme merkezi ile küme üyeleri arasındaki Öklid mesafesini en aza indirmeyi amaçlıyoruz. Bunun arkasındaki sezgi, küme merkezinden eleman konumuna radyal mesafenin, kümenin tüm elemanları için "aynılık" ya da "benzer" olması gerektiğidir.

Algoritma şudur:

  • Küme sayısını ayarlayın (aka küme sayısı)
  • İndeksleri kümeye uzayda rastgele noktalar atayarak sıfırlayın.
  • Birleşene kadar tekrar et
    • Her nokta için en yakın kümeyi bulun ve kümeye nokta atayın
    • Her küme için, üye puanların ortalamasını ve güncelleme merkezi ortalamasını bulun.
    • Hata kümelerin uzaklık normudur.

Küresel K araçları:

Küresel k araçlarında, fikir her bir kümenin merkezini, bileşenler arasında açının hem homojen hem de minimum olmasını sağlayacak şekilde ayarlamaktır. Sezgi yıldızlara bakmak gibidir - noktaların aralarında tutarlı boşluk bırakması gerekir. Bu boşluk, "kosinüs benzerliği" olarak ölçmek için daha basittir, ancak bu, veri gökyüzü üzerinde büyük ve parlak renk alanlarını oluşturan "Samanyolu" gökadalarının olmadığı anlamına gelir. (Evet, açıklamanın bu bölümünde büyükannemle konuşmaya çalışıyorum .)

Daha fazla teknik sürüm:

Vektörleri, yönelimli oklar olarak grafik çizdiğiniz şeyleri ve sabit uzunlukları düşünün. Her yere çevrilebilir ve aynı vektör olabilir. ref

görüntü tanımını buraya girin

Noktanın uzayda oryantasyonu (bir referans çizgisinden açısı) doğrusal cebir, özellikle nokta ürünü kullanılarak hesaplanabilir.

Tüm verileri, kuyrukları aynı noktada olacak şekilde taşırsak, "vektörleri" açılarına göre karşılaştırabilir ve benzerlerini tek bir kümede gruplayabiliriz.

görüntü tanımını buraya girin

Netlik için, vektörlerin uzunlukları ölçeklendirilir, böylece "göz küresi" karşılaştırması daha kolay olur.

görüntü tanımını buraya girin

Bunu bir takımyıldız olarak düşünebilirsiniz. Tek bir kümedeki yıldızlar bir anlamda birbirine yakındır. Bunlar benim göz kürek takımlarım olarak kabul edilenler.

görüntü tanımını buraya girin

Genel yaklaşımın değeri, vektörlerin belgelerde kelime frekansları olduğu tf-idf yönteminde olduğu gibi, geometrik boyutu olmayan vektörleri elde etmemize izin vermesidir. Eklenen iki "ve" kelimesi bir "the" ile aynı değildir. Kelimeler sürekli değildir ve sayısal değildir. Geometrik anlamda fiziksel değildirler, ancak onları geometrik olarak değerlendirebilir ve sonra bunları ele almak için geometrik yöntemler kullanabiliriz. Küresel k araçları kelimelere göre kümelemek için kullanılabilir.

Yani (2d rasgele, sürekli) verileri şuydu:

[x1y1x2y2group00.80.20130.7316B0.80.10.95240.3639A0.20.30.20610.1434C0.80.10.47870.153B0.70.20.72760.3825A0.90.90.7480.6793C]

Bazı noktalar:

  • Belge uzunluğundaki farklılıkları hesaba katan bir ünite alanına yansıtırlar.

Gerçek bir süreç üzerinde çalışalım ve benim "göz küreme" nin ne kadar (kötü) olduğunu görelim.

Prosedür:

  1. (Sorunda örtülü) vektör kuyruklarını başlangıç ​​noktasında bağla
  2. birim küre üzerine proje (belge uzunluğundaki farklılıkları hesaba katmak için)
  3. " kosinüs farklılıklarını " en aza indirmek için kümelemeyi kullanın

d ( x , p ) = 1 - c O ler ( x , p ) = x , s

J=id(xi,pc(i))
burada
d(x,p)=1cos(x,p)=x,pxp

(daha fazla düzenleme yakında)

Bağlantılar:

  1. http://epub.wu.ac.at/4000/1/paper.pdf
  2. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.111.8125&rep=rep1&type=pdf
  3. http://www.cs.gsu.edu/~wkim/index_files/papers/refinehd.pdf
  4. https://www.jstatsoft.org/article/view/v050i10
  5. http://www.mathworks.com/matlabcentral/fileexchange/32987-the-spherical-k-means-algorithm
  6. https://ocw.mit.edu/courses/sloan-school-of-management/15-097-prediction-machine-learning-and-statistics-spring-2012/projects/MIT15_097S12_proj1.pdf

Metin dosyaları, ben hizalar karakterler veya ağırlıklarla değişiklikleri gösterir o "fark" fonksiyonu, anlamlı kümeleme geliştirmek amacıyla "yakın birbirine" metinlerinin yararlı önişlemeyi olabileceğini düşünüyorum
EngrStudent - Eski Monica


@David - ben de. Her zaman hareket halindedir ... internet? Bir saniye lütfen.
EngrStudent - Eski Monica

1
Biraz tereddüt ettikten sonra şu anda bu cevabı reddetmeyi seçtim. Sadece "büyükannem" açıklaması da değil, kesin değil. radial distance from the cluster-center to the element location should "have sameness" or "be similar" for all elements of that clustersesler sadece yanlış veya kör. In both uniform and minimal the angle between components"bileşenleri" tanımlı değil. Umarız, biraz daha titiz ve genişletilmiş olursanız, potansiyel olarak iyi bir cevabı geliştirirsiniz.
ttnphns
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.