Dikkat edilmesi gereken birkaç şey var.
Çoğu iç kümelenme kriteri gibi , Calinski-Harabasz sezgisel bir araçtır. Bunu kullanmanın doğru yolu, aynı veriler üzerinde elde edilen kümeleme çözümlerini karşılaştırmaktır - küme sayısına veya kullanılan kümeleme yöntemine göre farklılık gösteren çözümler.
"Kabul edilebilir" bir kesme değeri yok. Sadece CH değerlerini gözle karşılaştırırsınız. Değer ne kadar yüksek olursa, çözüm "daha iyi" olur. CH değerlerinin çizgi grafiği üzerinde bir çözümün bir tepe noktası veya en azından ani bir dirsek verdiği görülüyorsa, onu seçin. Aksine, çizgi pürüzsüz ise - yatay ya da yükselen ya da azalan - o zaman bir çözümü başkalarına tercih etmek için bir neden yoktur.
CH kriteri ANOVA ideolojisine dayanır. Bu nedenle, kümelenmiş nesnelerin Öklid ölçek uzayında (sıralı veya ikili veya nominal değil) değişkenlerde bulunduğu anlamına gelir. Kümelenen veriler nesneler X değişkenleri değil, nesneler arasındaki farklılıkların bir matrisi ise, farklılık ölçüsü (kare) öklid mesafesi (veya daha da kötüsü özelliklere göre öklid mesafesine yaklaşan diğer metrik mesafe) olmalıdır.
1
Bir örnek izleyelim. Aşağıda, birbirine oldukça yakın olan normal dağılmış 5 küme olarak üretilen bir veri grafiği gösterilmektedir.
Bu veriler hiyerarşik ortalama bağlantı yöntemi ile kümelenmiştir ve 15 kümeden 2 kümeye kadar tüm küme çözümleri (küme üyelikleri) kaydedilmiştir. Ardından, çözümleri karşılaştırmak ve varsa "daha iyi" olanı seçmek için iki kümeleme kriteri uygulandı.
Calinski-Harabasz için arsa solda. Görüyoruz ki - bu örnekte - CH açıkça 5 küme çözümünü (CLU5_1 etiketli) en iyisi olarak gösterir. Başka bir kümelenme kriteri için arsa C-Index (ANOVA ideolojisine dayanmayan ve uygulamasında CH'den daha evrensel olan) sağdadır. C-Index için daha düşük bir değer "daha iyi" bir çözümü gösterir. Çizimde görüldüğü gibi, 15 küme çözüm resmi olarak en iyisidir. Ancak, kümelenme kriterleri ile sağlam topografyanın kararda büyüklüğün kendisinden daha önemli olduğunu unutmayın. Not 5 küme çözümde dirsek olduğunu; 5 küme çözeltisi hala nispeten iyidir, oysa 4- veya 3 küme çözeltileri sıçramalarla bozulmaktadır. Genellikle "daha az kümelenme ile daha iyi bir çözüm" almak istediğimiz için, 5 kümeli çözüm seçimi de C-Index testinde makul görünmektedir.
PS Bu gönderi aynı zamanda kümelenme ölçütünün gerçek maksimumuna (veya minimumuna) mı yoksa daha çok değerlerinin arsa manzarasına mı güvenmememiz gerektiği sorusunu gündeme getirmektedir .
1
İç kümelenme kriterlerine genel bakış ve bunların nasıl kullanılacağı .