Calinski ve Harabasz (CH) kriterinin kabul edilebilir bir değeri nedir?


25

R ve kml paketini kullanarak boylamsal verileri kümelemeye çalışırken veri analizi yaptım . Verilerim yaklaşık 400 ayrı yörünge içerir (makalede adı geçen). Sonuçlarımı aşağıdaki resimde görebilirsiniz:

görüntü tanımını buraya girin

Bölüm 2.2 'yi okuduktan sonra, ilgili makalede "Optimum sayıda küme seçmek", hiçbir cevap alamadım. 3 kümeye sahip olmayı tercih ederdim ama sonuç hala 80'lik bir CH ile Tamam olacak. Aslında CH değerinin neyi temsil ettiğini bile bilmiyorum.

Öyleyse benim sorum, Calinski ve Harabasz (CH) kriterinin kabul edilebilir bir değeri nedir?


küme çözüm resimleriniz SPSS'den mi geliyor? Bu CH kriterini SPSS'de saymak mümkün müdür? Teşekkürler! :) b
berbelein

Siteye Hoşgeldiniz @berbelein. Bu OP'nin sorusuna bir cevap değil. Lütfen cevap vermek için sadece "Cevabınız" alanını kullanın. Kendi sorunuz [ASK QUESTION]varsa, oradaki sor düğmesine tıklayın , ardından size doğru şekilde yardımcı olabiliriz. Burada yeni olduğunuz için yeni kullanıcılar için bilgiler içeren turumuza katılmak isteyebilirsiniz .
dediklerinin - Eski Monica

@berbelein, R.'den görüntüler.
greg121,

Yanıtlar:


40

Dikkat edilmesi gereken birkaç şey var.

  • Çoğu iç kümelenme kriteri gibi , Calinski-Harabasz sezgisel bir araçtır. Bunu kullanmanın doğru yolu, aynı veriler üzerinde elde edilen kümeleme çözümlerini karşılaştırmaktır - küme sayısına veya kullanılan kümeleme yöntemine göre farklılık gösteren çözümler.

  • "Kabul edilebilir" bir kesme değeri yok. Sadece CH değerlerini gözle karşılaştırırsınız. Değer ne kadar yüksek olursa, çözüm "daha iyi" olur. CH değerlerinin çizgi grafiği üzerinde bir çözümün bir tepe noktası veya en azından ani bir dirsek verdiği görülüyorsa, onu seçin. Aksine, çizgi pürüzsüz ise - yatay ya da yükselen ya da azalan - o zaman bir çözümü başkalarına tercih etmek için bir neden yoktur.

  • CH kriteri ANOVA ideolojisine dayanır. Bu nedenle, kümelenmiş nesnelerin Öklid ölçek uzayında (sıralı veya ikili veya nominal değil) değişkenlerde bulunduğu anlamına gelir. Kümelenen veriler nesneler X değişkenleri değil, nesneler arasındaki farklılıkların bir matrisi ise, farklılık ölçüsü (kare) öklid mesafesi (veya daha da kötüsü özelliklere göre öklid mesafesine yaklaşan diğer metrik mesafe) olmalıdır.

  • 1

Bir örnek izleyelim. Aşağıda, birbirine oldukça yakın olan normal dağılmış 5 küme olarak üretilen bir veri grafiği gösterilmektedir.

görüntü tanımını buraya girin

Bu veriler hiyerarşik ortalama bağlantı yöntemi ile kümelenmiştir ve 15 kümeden 2 kümeye kadar tüm küme çözümleri (küme üyelikleri) kaydedilmiştir. Ardından, çözümleri karşılaştırmak ve varsa "daha iyi" olanı seçmek için iki kümeleme kriteri uygulandı.

görüntü tanımını buraya girin

Calinski-Harabasz için arsa solda. Görüyoruz ki - bu örnekte - CH açıkça 5 küme çözümünü (CLU5_1 etiketli) en iyisi olarak gösterir. Başka bir kümelenme kriteri için arsa C-Index (ANOVA ideolojisine dayanmayan ve uygulamasında CH'den daha evrensel olan) sağdadır. C-Index için daha düşük bir değer "daha iyi" bir çözümü gösterir. Çizimde görüldüğü gibi, 15 küme çözüm resmi olarak en iyisidir. Ancak, kümelenme kriterleri ile sağlam topografyanın kararda büyüklüğün kendisinden daha önemli olduğunu unutmayın. Not 5 küme çözümde dirsek olduğunu; 5 küme çözeltisi hala nispeten iyidir, oysa 4- veya 3 küme çözeltileri sıçramalarla bozulmaktadır. Genellikle "daha az kümelenme ile daha iyi bir çözüm" almak istediğimiz için, 5 kümeli çözüm seçimi de C-Index testinde makul görünmektedir.

PS Bu gönderi aynı zamanda kümelenme ölçütünün gerçek maksimumuna (veya minimumuna) mı yoksa daha çok değerlerinin arsa manzarasına mı güvenmememiz gerektiği sorusunu gündeme getirmektedir .


1

İç kümelenme kriterlerine genel bakış ve bunların nasıl kullanılacağı .


Bir okuyucu da soru istatistik.stackexchange.com/q/242360/3277 görmek isteyebilir .
ttnphns

SPSS için bir dizi popüler kümeleme doğrulama kriterini uyguladım.
ttnphns
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.