Sergey'in cevabı kritik noktayı içeriyor; yani siluet katsayısı, elde edilen kümelenme kalitesini ölçüyor; bu nedenle siluet katsayısını en üst düzeye çıkaran küme sayısını seçmelisiniz.
Uzun cevap, kümelenme çabalarınızın sonuçlarını değerlendirmenin en iyi yolunun aslında insan incelemesi - kümelerin oluşturduğu ve verinin neyi temsil ettiği, kümenin neyi temsil ettiğine dair bir anlayışa dayanarak belirleme yaparak incelemeye başlamaktır. ve kümelemenin neyi başarması amaçlanmaktadır.
Sınırlamaları tam olarak anlayarak, araç olarak kullanılması gereken kümelenme sonuçlarını değerlendirmenin sayısız nicel metodu vardır. Doğada oldukça sezgisel olma eğilimindedirler ve bu nedenle doğal bir çekiciliği vardır (genel olarak kümelenme problemleri gibi).
Örnekler: küme kütlesi / yarıçapı / yoğunluğu, kümeler arasında birleşme veya ayrılma, vb. Bu kavramlar sıklıkla birleştirilir, örneğin kümelemenin başarılı olması durumunda ayrılmanın bütünlüğe yapışma oranının büyük olması gerekir.
Kümelenmenin ölçülme şekli, kullanılan kümelenme algoritmalarının türü ile bildirilir. Örneğin, tam bir kümeleme algoritmasının kalitesinin ölçülmesi (tüm noktaların kümelere konması) eşik bazlı bulanık kümelenme algoritmasının kalitesinin ölçülmesinden çok farklı olabilir (ki burada bir nokta kümelenmemiş olarak “gürültü” olarak bırakılabilir) ).
Siluet katsayısı, böyle bir ölçüdür. Aşağıdaki gibi çalışır:
Her p noktası için, ilk önce p ile aynı kümedeki diğer tüm noktalar arasındaki ortalama mesafeyi bulun (bu bir uyum ölçüsüdür, A olarak adlandırın). Daha sonra p ile en yakın kümedeki tüm noktalar arasındaki ortalama mesafeyi bulun (bu, en yakın diğer kümeden ayrılmanın bir ölçüsüdür, B olarak adlandırın). P için siluet katsayısı, B ve A arasındaki farkın ikiden büyüke (maks (A, B)) bölünmesiyle tanımlanır.
Her bir noktanın küme katsayısını değerlendiriyoruz ve bundan da 'genel' ortalama küme katsayısını elde edebiliyoruz.
Sezgisel olarak, kümeler arasındaki boşluğu ölçmeye çalışıyoruz. Küme uyumu iyi (A küçük) ve küme ayrımı iyi (B büyük), pay büyük vb.
Bunu grafiksel olarak göstermek için buraya bir örnek oluşturdum.
Bu parsellerde aynı veriler beş kez çizilmiştir; renkler, k = 1,2,3,4,5 ile k-aracı kümelenmesi tarafından oluşturulan kümeleri gösterir. Yani, verileri 2 kümeye, ardından 3'e bölmek için kümeleme algoritmasını zorladım ve grafiği buna göre renklendirdim.
Siluet grafiği, k = 3 olduğunda siluet katsayısının en yüksek olduğunu gösterir, bu da optimum küme sayısı olduğunu gösterir. Bu örnekte verileri görselleştirebildiğimiz için şanslıyız ve gerçekten üç kümenin bu veri kümesinin bölümlenmesini en iyi şekilde yakaladığını kabul edebiliriz.
Verileri görselleştirememiş olsaydık, belki de daha yüksek boyutsallık nedeniyle, bir siluet grafiği bize bir öneride bulunacaktı. Bununla birlikte, burada biraz uzun soluklu cevabımın, bu "öneri" nin bazı senaryolarda çok yetersiz ya da sadece yanlış olabileceği fikrine de inanıyorum.