Bu yüzden, canlı, sürekli akışlı verilerle kümelenmeyle ilgili bir sorunum var. Sürekli büyüyen bir veri setim olduğundan, verimli ve etkili kümelemeyi çalıştırmanın en iyi yolunun ne olduğundan emin değilim. Ben de dahil olmak üzere birkaç olası çözüm buldum:
Kaç veri noktasına izin verileceğine ilişkin bir sınır belirlemek, böylece başka bir veri noktası geldiğinde sınıra her ulaşıldığında kaldırılır. Esasen, bu, eski verilerin artık dışarı atarak ne kaybettiğimizi önemsemek için yeterince alakalı olmadığını düşündürür.
İyi bir kümeleme yapmak için yeterli veri olduğunda, bu "kurulumu" düşünün ve yeni noktalar geldikçe, tüm verileri yeniden kümelemek yerine, yeni noktanın en yakın küme merkezine karar vermesini ve buna eklemesini sağlayın. Buradaki fayda, her yeni noktada yeniden kümelenmekten kaçınabilmeniz ve bu kümelenmeyi "yeterince iyi" düşünerek diğer tüm noktaları, sadece küme merkezlerini depolamak zorunda kalmamanızdır. Dezavantajı, algoritmanın baştan tüm veri noktaları ile yeniden çalıştırılmasının daha doğru olabilmesidir.
Bunlar beyin fırtınası yaptığım bazı potansiyel çözümler olsa da, bu sorunla yüzleşmek için daha iyi bilinen teknikler olup olmadığını bilmek istiyorum. Google gibi sitelerin bir şekilde uğraşması gerektiğini düşünüyorum (ve "daha fazla koç, sunucu ve işlemci ekleyin" veya "veri merkezlerinizi sürekli olarak genişletin" mevcut tek cevaplar olmadığını umuyorum).