K-ortalamaları kümeleme için iyi bilinen bir algoritmadır, fakat aynı zamanda bu tür bir algoritmanın çevrimiçi varyasyonu da vardır (çevrimiçi K-ortalamaları). Bu yaklaşımların artıları ve eksileri nelerdir ve her biri ne zaman tercih edilmelidir?
K-ortalamaları kümeleme için iyi bilinen bir algoritmadır, fakat aynı zamanda bu tür bir algoritmanın çevrimiçi varyasyonu da vardır (çevrimiçi K-ortalamaları). Bu yaklaşımların artıları ve eksileri nelerdir ve her biri ne zaman tercih edilmelidir?
Yanıtlar:
Çevrimiçi k-araçları (daha yaygın olarak sıralı k-araçları olarak bilinir ) ve geleneksel k-araçları çok benzerdir. Aradaki fark, çevrimiçi k-araçlarının, yeni veriler alındıkça modeli güncellemenize izin vermesidir.
Çevrimiçi k-ortalamaları, verilerin birer birer alınmasını beklediğinizde kullanılmalıdır (ya da yığınlar halinde). Bu, modelinizi daha fazla bilgi edindikçe güncellemenizi sağlar. Bu yöntemin dezavantajı, verilerin alınış sırasına ( ref ) bağlı olmasıdır.
Orijinal MacQueen k-yayını ("kmeans" adını ilk kullanan yayın) çevrimiçi bir algoritmadır.
MacQueen, JB (1967). "Çok Değişkenli Gözlemlerin Sınıflandırılması ve Analizi İçin Bazı Yöntemler". 5. Berkeley Matematiksel İstatistik ve Olasılık Sempozyumu Bildirileri 1. California Üniversitesi Yayınları. s. 281-297
Her bir noktayı atadıktan sonra, ortalama, basit ağırlıklı ortalama formülü kullanılarak kademeli olarak güncellenir (eski ortalama n ile ağırlıklandırılır, ortalamanın n n gözlemden önce olması durumunda yeni gözlem 1 ile ağırlıklandırılır).
Anlayabildiğim kadarıyla, sadece veri üzerinde tek bir geçiş olması gerekiyordu, ancak yakınsamaya kadar puanları yeniden atamak için önemsiz bir şekilde birkaç kez tekrarlanabilir.
MacQueen genellikle verileriniz karıştırılırsa yakınsama yapmak için Lloyds'tan daha az yineleme yapar (çünkü ortalamayı daha hızlı günceller!). Sıralı verilerde sorun yaşayabilir. Aşağı yönde, her nesne için daha fazla hesaplama gerektirir, bu nedenle her yineleme biraz daha uzun sürer (açıkça ek matematik işlemleri).