Veri madenciliği veya büyük verilerde endüstri deneyimim yok, bu yüzden biraz deneyim paylaştığınızı duymak isterim.
İnsanlar gerçekten büyük bir veri kümesinde k-ortalamaları, PAM, CLARA, vs. çalıştırıyor mu? Yoksa rastgele bir örnek mi seçtiler? Sadece veri kümesinin bir örneğini alırlarsa, veri kümesi normal olarak dağıtılmazsa sonuç güvenilir olur mu?
Bu algoritmaları çalıştırırken pratik durumlarda, yakınsama gerçekleşene kadar normalde kaç yineleme olacağını söyleyebilir miyiz? Veya yineleme sayısı her zaman veri boyutuyla birlikte artar mı?
Bunu soruyorum çünkü yakınsamadan önce yinelemeli algoritmaları sonlandırmak için bir yaklaşım geliştirmeyi düşünüyorum ve yine de sonuçlar hala kabul edilebilir. Sanırım yineleme sayısının 1000'den fazla olması denemeye değer, bu nedenle bazı hesaplama maliyetlerinden ve zamanlarından tasarruf edebiliriz. Ne düşünüyorsun?
number of iterations always grow with the data size
Şart değil.