Boşluk istatistiği bunu yapmanın harika bir yoludur; Tibshirani, Hastie ve Walther (2001).
http://stat.ethz.ch/R-manual/R-devel/library/cluster/html/clusGap.html - İlgili R paketi.
Fikir, verilerinizi K = 1,2,3, ... için kümelemeye yönelik sıralı bir hipotez testi gerçekleştirmesidir. Özel gücü, K = 1'in, yani kümelerin bulunup bulunmadığının güvenilir bir göstergesidir.
İşte bir örnek, birkaç gün önce olduğu gibi bazı astronomi verilerini inceliyordum - yani geçiş yapan bir ötegezegen araştırmasından. (Dışbükey) kümeler için hangi kanıtların olduğunu bilmek istedim. Verilerim 'transit'
library(cluster)
cgap <- clusGap(transit, FUN=kmeans, K.max=kmax, B=100)
for(k in 1:(kmax-1)) {
if(cgap$Tab[k,3]>cgap$Tab[(k+1),3]-cgap$Tab[(k+1),4]) {print(k)};
break;
}
Boşluk istatistiği ile testin başarısız olduğu ilk K değerini arıyorsunuz, yani boşluk istatistiği önemli ölçüde azalır. Yukarıdaki döngü böyle bir ak yazdırır, ancak cgap'ı çizmek size aşağıdaki şekli verir: Boşlukta
k = 1'den k = 2'ye nasıl önemli bir düşüş olduğunu görün, aslında hiçbir küme olmadığını gösterir (yani 1 küme).