İdeal bir kümeleme elde etmek için , boşluk istatistiğini en üst düzeye çıkaracak şekilde seçmelisiniz . İşte Tibshirani ve ark. (2001) makalelerinde, 2 küme ile yapay verilerden oluşan arsa. Gördüğünüz gibi, 2 açıkça ideal , çünkü boşluk istatistiği maksimuma çıkarılmıştır :kkk=2
Bununla birlikte, birçok gerçek dünya veri kümesinde, kümeler iyi tanımlanmamıştır ve boşluk istatistiğini en üst düzeye çıkarmakla modelin parsimony'sini dengelemek istiyoruz. Vaka: OP'nin ilk resmi. Sadece boşluk istatistiğini en üst düzeye çıkarırsak , 30 (veya daha fazla!) Kümeli modeli seçmeliyiz. Bu planın artmaya devam edeceği varsayılırsa, elbette sonuçlar daha az yararlıdır. Bu yüzden Tibshirani, 1 standart hata yöntemini önerir :
Küme boyutu seçin küçük olması öyle ki .k^kGap(k)≥Gap(k+1)−sk+1
Bu gayri resmi olarak boşluk istatistiği artış hızının "yavaşlamaya" başladığı noktayı tanımlamaktadır.
Bu nedenle, OP'nin ilk görüntüsünde, kırmızı hata çubuklarını standart hata olarak alırsak, 3 bu kriteri karşılayan en küçük :k
Ancak OP'nin ikinci görüntüsü için, için boşluk istatistiğinin derhal azaldığını göreceksiniz . Bu nedenle, 1 standart hata ölçütünü karşılayan ilk . Bu, çizimin verilerin kümelenmemesi gerektiğini söylemenin yoludur.k>1k1
Anlaşıldığı gibi, optimal ek yolları var . R işlevinin varsayılan yöntemi , örneğin, her zaman grafiğinin yerel maksimum arar ve seçer küçük yerel maksimum bir standart hata içinde. Bu yöntemi kullanarak OP'nin grafik 1 ve 2 için sırasıyla ve seçerdik. Söylediğim gibi, bunun bir karmaşıklık sorunu olduğu görülüyor.kclusGap
kfirstSEmax
k=30k=19
Kaynak: Robert Tibshirani, Guenther Walther ve Trevor Hastie (2001). Boşluk istatistiği yoluyla bir veri kümesindeki kümelerin sayısını tahmin etme.