K-araçları neden degrade iniş kullanılarak optimize edilmiyor?


14

K-araçlarının genellikle Beklenti Maksimizasyonu kullanılarak optimize edildiğini biliyorum . Bununla birlikte, kayıp fonksiyonunu diğerlerini optimize ettiğimiz gibi optimize edebiliriz!

Büyük ölçekli k-araçları için aslında stokastik gradyan kökenli bazı makaleler buldum , ancak sorumun yanıtını alamadım.

Peki, bunun neden olduğunu bilen var mı? Beklenti Maksimizasyonu daha hızlı birleştiği için mi? Özel bir garantisi var mı? Yoksa tarihsel bir sebep midir?


Maksimizasyon adımı, olasılık eğrisine (beklenti adımı tarafından seçilen değerlere bağlı olarak) tırmanıyor, değil mi?
David J. Harris

@ DavidJ.Harris OP'nin EM'nin yaptığı gibi davrandığını tartışmıyorum, ama neden bir yöntemin yaygın olarak kullanıldığını ve başka bir yöntemin bu kadar kullanılmadığını soruyorum . Yorumunuz, EM'nin neden tercih edilebileceğini doğrudan ele almıyor gibi görünüyor.
Glen_b-Monica

1
Merhaba @ DavidJ.Harris, Glen_b gibi, her iki algoritmanın da olabilirliği (EM) veya günlük olasılığını (gradyan inişi) optimize ettiğini anlıyorum. Google'a ve arkadaşlara girdikten sonra, bu sorunun ele alınıp alınmadığını bu makale bağlantısına aldım . Eğer anlamamış olsaydım, EM degrade inişten daha iyi bir çözüme kavuşur.
elsonidoq

K-araçlarının optimize edilmesi için amaç işlevi nedir? Farklılaşabilir mi?
Vladislavs Dovgalecs

3
Parametrelerde (küme araçları) sorunsuz bir şekilde ayırt edilebilir, ancak kesinlikle küme atamalarında (çok terimli gösterge değişkenleri olan) değil mi?
Ruben van Bergen

Yanıtlar:


7

OP'den bahsedildiği gibi, k-araçlarını degrade iniş kullanarak çözmek mümkündür ve bu büyük ölçekli problemler için yararlı olabilir.

K-araçlarının (yani Lloyd'un algoritması) çözülmesinde EM tarzı algoritmaların yaygınlığının kesinlikle tarihsel nedenleri vardır. Lloyd'un algoritması o kadar popüler ki, insanlar bazen "k-araç algoritması" olarak adlandırıyorlar ve hatta diğer yaklaşımların varlığından habersiz bile olabilirler. Ancak, bu popülerlik hak edilmez.

Bottou ve Bengio (1995) Lloyd'un algoritmasının Newton yöntemini kullanarak k-ortalama maliyet işlevini optimize etmeye eşdeğer olduğunu göstermiştir. Genel optimizasyon problemlerinde, Newton yöntemi gibi ikinci dereceden yöntemler, gradyan iniş gibi birinci dereceden yöntemlerden daha hızlı birleşebilirler çünkü objektif fonksiyonun eğriliği hakkında bilgi kullanırlar (ve birinci dereceden yöntemler yoktur). İyi bilinen Iris veri seti üzerinde yapılan bir deneyde Lloyd'un algoritmasının gerçekten degrade eğimden daha hızlı birleştiğini gösterdiler. Bu karşılaştırmayı daha çeşitli veri kümelerinde görmek ilginç olurdu.

Referanslar:

Bottou ve Bengio (1995) . K-ortalama algoritmalarının yakınsaklık özellikleri.


2

K-kümelenmesi denetimsiz demektir ve EM'yi kullanan en yakın denetimsiz teknik model tabanlı kümelemedir (Gauss karışım modelleri, GMM). GMM model tabanlı kümelemeyle ilgili can sıkıcı bir sorun, özelliklerin birçoğu ilişkilendirildiğinde ortaya çıkar ve bu da özellik tabanlı kovaryans (korelasyon) matrisinde neredeyse tekilliğe neden olur. Bu durumda, olasılık işlevi kararsız hale gelir ve koşul dizinleri sonsuza ulaşarak GMM'nin tamamen bozulmasına neden olur.

Bu nedenle, EM ve kNN fikrini bırakın - çünkü denetimsiz analiz için kovaryans (korelasyon) matrislerine dayanır. Optimizasyon hakkındaki sorunuz Sammon haritalamasına ve klasik metrik ve metrik olmayan çok boyutlu ölçeklendirmeye (MDS) çok benzemektedir. Sammon haritalaması türev-yinelemeye dayalıdır, bununla birlikte MDS'nin çeşitli formları yaygın olarak yinelemeli veya tek adımlı bir özdeğer kompozisyonudur, ancak yine de tek adımlı bir matris işlemi sırasında optimize edilebilir.

Tekrar isteğinize baktığınızda: cevap şudur: Sammon eşlemesinde zaten yapılmıştır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.