Soru:
Klasik k araçları ve küresel k araçları arasındaki fark nedir?
Klasik K araçları:
Klasik k anlamında, küme merkezi ile küme üyeleri arasındaki Öklid mesafesini en aza indirmeyi amaçlıyoruz. Bunun arkasındaki sezgi, küme merkezinden eleman konumuna radyal mesafenin, kümenin tüm elemanları için "aynılık" ya da "benzer" olması gerektiğidir.
Algoritma şudur:
- Küme sayısını ayarlayın (aka küme sayısı)
- İndeksleri kümeye uzayda rastgele noktalar atayarak sıfırlayın.
- Birleşene kadar tekrar et
- Her nokta için en yakın kümeyi bulun ve kümeye nokta atayın
- Her küme için, üye puanların ortalamasını ve güncelleme merkezi ortalamasını bulun.
- Hata kümelerin uzaklık normudur.
Küresel K araçları:
Küresel k araçlarında, fikir her bir kümenin merkezini, bileşenler arasında açının hem homojen hem de minimum olmasını sağlayacak şekilde ayarlamaktır. Sezgi yıldızlara bakmak gibidir - noktaların aralarında tutarlı boşluk bırakması gerekir. Bu boşluk, "kosinüs benzerliği" olarak ölçmek için daha basittir, ancak bu, veri gökyüzü üzerinde büyük ve parlak renk alanlarını oluşturan "Samanyolu" gökadalarının olmadığı anlamına gelir. (Evet, açıklamanın bu bölümünde büyükannemle konuşmaya çalışıyorum .)
Daha fazla teknik sürüm:
Vektörleri, yönelimli oklar olarak grafik çizdiğiniz şeyleri ve sabit uzunlukları düşünün. Her yere çevrilebilir ve aynı vektör olabilir. ref
Noktanın uzayda oryantasyonu (bir referans çizgisinden açısı) doğrusal cebir, özellikle nokta ürünü kullanılarak hesaplanabilir.
Tüm verileri, kuyrukları aynı noktada olacak şekilde taşırsak, "vektörleri" açılarına göre karşılaştırabilir ve benzerlerini tek bir kümede gruplayabiliriz.
Netlik için, vektörlerin uzunlukları ölçeklendirilir, böylece "göz küresi" karşılaştırması daha kolay olur.
Bunu bir takımyıldız olarak düşünebilirsiniz. Tek bir kümedeki yıldızlar bir anlamda birbirine yakındır. Bunlar benim göz kürek takımlarım olarak kabul edilenler.
Genel yaklaşımın değeri, vektörlerin belgelerde kelime frekansları olduğu tf-idf yönteminde olduğu gibi, geometrik boyutu olmayan vektörleri elde etmemize izin vermesidir. Eklenen iki "ve" kelimesi bir "the" ile aynı değildir. Kelimeler sürekli değildir ve sayısal değildir. Geometrik anlamda fiziksel değildirler, ancak onları geometrik olarak değerlendirebilir ve sonra bunları ele almak için geometrik yöntemler kullanabiliriz. Küresel k araçları kelimelere göre kümelemek için kullanılabilir.
Yani (2d rasgele, sürekli) verileri şuydu:
⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢x 10- 0.80.20.8- 0.70.9y1- 0.80.10.30.10.20.9x 2- 0.2013- 0.95240,20610,4787- 0,72760.748y2- 0.73160,3639- 0.14340.1530,38250,6793gr O u sBbirCBbirC⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥
Bazı noktalar:
- Belge uzunluğundaki farklılıkları hesaba katan bir ünite alanına yansıtırlar.
Gerçek bir süreç üzerinde çalışalım ve benim "göz küreme" nin ne kadar (kötü) olduğunu görelim.
Prosedür:
- (Sorunda örtülü) vektör kuyruklarını başlangıç noktasında bağla
- birim küre üzerine proje (belge uzunluğundaki farklılıkları hesaba katmak için)
- " kosinüs farklılıklarını " en aza indirmek için kümelemeyi kullanın
d ( x , p ) = 1 - c O ler ( x , p ) = ⟨ x , s ⟩
J= ∑bend( xben, pc ( i ))
burada
d( X , p ) = 1 - c O ler ( x , p ) = ⟨ x , s ⟩∥ x ∥ ∥ p ∥
(daha fazla düzenleme yakında)
Bağlantılar:
- http://epub.wu.ac.at/4000/1/paper.pdf
- http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.111.8125&rep=rep1&type=pdf
- http://www.cs.gsu.edu/~wkim/index_files/papers/refinehd.pdf
- https://www.jstatsoft.org/article/view/v050i10
- http://www.mathworks.com/matlabcentral/fileexchange/32987-the-spherical-k-means-algorithm
- https://ocw.mit.edu/courses/sloan-school-of-management/15-097-prediction-machine-learning-and-statistics-spring-2012/projects/MIT15_097S12_proj1.pdf