Sürekli Kümeleme


9

Bu yüzden, canlı, sürekli akışlı verilerle kümelenmeyle ilgili bir sorunum var. Sürekli büyüyen bir veri setim olduğundan, verimli ve etkili kümelemeyi çalıştırmanın en iyi yolunun ne olduğundan emin değilim. Ben de dahil olmak üzere birkaç olası çözüm buldum:

  1. Kaç veri noktasına izin verileceğine ilişkin bir sınır belirlemek, böylece başka bir veri noktası geldiğinde sınıra her ulaşıldığında kaldırılır. Esasen, bu, eski verilerin artık dışarı atarak ne kaybettiğimizi önemsemek için yeterince alakalı olmadığını düşündürür.

  2. İyi bir kümeleme yapmak için yeterli veri olduğunda, bu "kurulumu" düşünün ve yeni noktalar geldikçe, tüm verileri yeniden kümelemek yerine, yeni noktanın en yakın küme merkezine karar vermesini ve buna eklemesini sağlayın. Buradaki fayda, her yeni noktada yeniden kümelenmekten kaçınabilmeniz ve bu kümelenmeyi "yeterince iyi" düşünerek diğer tüm noktaları, sadece küme merkezlerini depolamak zorunda kalmamanızdır. Dezavantajı, algoritmanın baştan tüm veri noktaları ile yeniden çalıştırılmasının daha doğru olabilmesidir.

Bunlar beyin fırtınası yaptığım bazı potansiyel çözümler olsa da, bu sorunla yüzleşmek için daha iyi bilinen teknikler olup olmadığını bilmek istiyorum. Google gibi sitelerin bir şekilde uğraşması gerektiğini düşünüyorum (ve "daha fazla koç, sunucu ve işlemci ekleyin" veya "veri merkezlerinizi sürekli olarak genişletin" mevcut tek cevaplar olmadığını umuyorum).

Yanıtlar:



9

Akış kümelenmesi üzerinde adil bir çalışma var (bu çevrimiçi yöntemlerden biraz farklı, ancak aslında istediğiniz şeydir). Guha ve ark yukarıdaki referans çok iyi biridir ve teknikleri işin türlü ve yöntemler geçmişte kullanılmıştır Ne (her ikisi de sezgisel ve hassas), bakmak isteyebilirsiniz ne daha genel bir perspektif için benim anket akışlarda kümeleme .



4

Yukarıdaki Suresh anketini seviyorum ve akış kümelenmesinde farklı yaklaşımları özetler. Bunu istemediniz, ancak bazı durumlarda sorun, sürekli verilerin dağıtılmış sunucular tarafından görülmesi, kişinin merkezde bir kümelenme tutması ve çok fazla veri taşımak zorunda olmamasıdır. Buraya bakın .


hoş geldin Muthu!
Suresh Venkat
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.