Bir boyutlu veride küme analizi kullanmayın.
Küme analizi genellikle çok değişkenli bir tekniktir. Ya da onu daha iyi anlatabilmeme izin verin: tek boyutlu veriler için - tamamen sıralı olarak - çok daha iyi teknikler var. Burada k-aracı ve benzer teknikleri kullanmak, onları 1-d durum için optimize etmek için yeterince çaba göstermediğiniz sürece, toplam bir atıktır.
Sadece size bir örnek vermek gerekirse: k-araçları için, ilk rastgele tohumları k rastgele nesneler olarak kullanmak yaygındır. Tek boyutlu veriler için, bu sadece uygun miktarlarını kullanarak daha iyi yapmak oldukça kolaydır (/ 2k 1 / 2k 3, 5 / 2k vs.), veri sıraladıktan sonra bir kez bu başlangıç noktasından optimize sonra, vb. Bununla birlikte, 2B veriler tamamen sıralanamaz. Ve bir ızgarada, muhtemelen boş hücreler olacaktır.
Ayrıca küme demezdim. Onu çağırır aralık . Gerçekten yapmak istediğiniz şey aralık sınırlarını optimize etmektir. K-aracı yaparsanız, her bir nesneyi başka bir kümeye taşınması gerekiyorsa test eder. Bu, 1B'de bir anlam ifade etmiyor: sadece aralık sınırındaki nesnelerin kontrol edilmesi gerekiyor. Açıkçası çok daha hızlı, çünkü orada sadece ~ 2k nesneler var. Zaten başka aralıkları tercih etmiyorlarsa, daha merkezi nesneler de olmaz.
Örneğin, Jenks Natural Breaks optimizasyonu gibi tekniklere bakmak isteyebilirsiniz .
Veya bir çekirdek yoğunluğu tahmini yapabilir ve orada bölünecek yoğunluğun yerel asgari değerine bakabilirsiniz. İşin güzel yanı, bunun için k belirtmenize gerek yok!
PS, lütfen arama işlevini kullanın. İşte 1-d veri kümelemesi ile ilgili kaçırdığınız bazı sorular: