Neden diğer algoritmalar yerine k-araçlarını kullanıyoruz?


14

K-ortalamaları hakkında araştırma yaptım ve bunlar var: k-means bilinen kümelenme sorunlarını çözmek için denetimsiz öğrenme yöntemini kullanan en basit algoritmalardan biridir. Büyük veri kümeleriyle gerçekten iyi çalışır.

Bununla birlikte, K-Ortalamalarının dezavantajları vardır:

  • Aykırı değerlere ve gürültüye karşı güçlü hassasiyet
  • Dairesel olmayan küme şekliyle iyi çalışmaz - küme sayısı ve başlangıç ​​tohum değeri önceden belirtilmelidir
  • Yerel optimum geçiş kabiliyeti düşük.

K-araçlarla ilgili harika bir şey var mı, çünkü dezavantajların k-araçlarla ilgili iyi şeylerin ötesinde olduğu anlaşılıyor.

Lütfen öğret bana.


3
Kullanıldığı bir sorun bağlamında iyi bir yöntem ya da iyi bir algoritma diye bir şey yoktur. Bu nedenle k-araçlarını kullanıyoruz çünkü k-araçlarının en uygun çözüm olduğu sorunlar vardır (;

Yanıtlar:


8

Daha iyi özelliklere sahip diğer kümeleme algoritmaları daha pahalı olma eğilimindedir. Bu durumda, k-araçları ön kümeleme için harika bir çözüm haline gelir ve alanı diğer kümeleme algoritmalarının uygulanabileceği ayrık daha küçük alt alanlara indirir.


Programın maliyetinde olduğu gibi daha mı pahalı? veya?
Desenli Altın Kafatası

5
Yavaş ve yoğun bellek kullananlara göre daha pahalı.
Martin O'Leary

Ah anlıyorum. Hızlı, sağlam ve anlaşılması kolay başka avantajlar var mı? Ve yine de @ MartinO'Leary ve @ zeferino
Gold Skull Desenli

6

K-ortalamaları en basit olanıdır. Uygulamak ve çalıştırmak. Tek yapmanız gereken "k" yi seçmek ve birkaç kez çalıştırmak.

Daha akıllı algoritmaların (özellikle iyi olanların) verimli bir şekilde uygulanması çok daha zordur (çalışma zamanı farklılıklarında 100x faktörleri göreceksiniz) ve ayarlanacak çok daha fazla parametreye sahip olacaksınız.

Ayrıca, çoğu insanın kaliteli kümelere ihtiyacı yoktur . Aslında onlar için uzaktan çalışan herhangi bir şeyden memnunlar. Ayrıca, daha karmaşık kümeleri olduğunda ne yapacaklarını gerçekten bilmiyorlar. Büyük veri azaltma: modeller kümeleri hiç en basit modeli kullanılarak K-ortalama, - - Bir ağırlık merkezi ihtiyaç duydukları tam olarak ne centroids için .


0

K-araçları Exchange Sıralama algoritması gibidir. Anlaması kolay, kişinin konuya girmesine yardımcı olur, ancak asla gerçek bir şey için kullanılmamalıdır. Exchange Sort durumunda, Bubble Sort bile daha iyidir çünkü dizi kısmen sıralanırsa erken durabilir. K-araçları durumunda, EM algoritması aynı algoritmadır, ancak K-araçlarının eşit dağılım varsayımı yerine kümeler için Gauss dağılımlarını varsayar. K-ortalamaları, tüm kümeler diyagonal kovaryans matrisine sahip olduğunda EM'nin uç örneğidir. Gauss yapısı, kümelerin kendilerini verilere büzüştükleri anlamına gelir. Bu, soruda doğru bir şekilde dile getirdiğiniz ciddi itirazların üstesinden gelir. Ve EM, K-araçlarından çok daha pahalı değil. (Her ikisini de bir Excel e-tablosuna uygulayabilirim.) Ancak, ciddi kümeleme uygulamaları için,

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.