10 boyutlu noktalarda k-demek kümeleme yapmak istiyorum. Yakalama: 10 ^ 10 puan var .
Sadece en büyük kümelerin merkezini ve boyutunu arıyorum (diyelim ki 10 ila 100 küme); Her noktanın hangi kümede bittiği umurumda değil. K-araçlarını kullanmak önemli değil; Ben sadece benzer bir etki arıyorum, herhangi bir yaklaşık k-araçları veya ilgili algoritma harika olurdu (minibatch-SGD anlamına gelir, ...). GMM bir anlamda k-araçları ile aynı problem olduğundan, aynı boyuttaki veriler üzerinde GMM yapmak da ilginçtir.
Bu ölçekte, verilerin alt örneklenmesi muhtemelen sonucu önemli ölçüde değiştirmez: verilerin 1 / 10000. örneğini kullanarak aynı ilk 10 kümeyi bulma olasılığı çok iyidir. Ancak o zaman bile, izlenebilir kenarın üstünde / ötesinde olan 10 ^ 6 puanlık bir problemdir.