Uygulamada aglomeratif hiyerarşik kümelenme için hangi durma kriterleri kullanılır?


32

Her türlü kriteri öneren geniş bir literatür buldum (örneğin Glenn ve diğerleri 1985 (pdf) ve Jung ve diğerleri 2002 (pdf)). Bununla birlikte, bunların çoğu, uygulanması o kadar kolay değildir (en azından benim açımdan). Bir küme hiyerarşisi elde etmek için scipy.cluster.hierarchy kullanıyorum ve şimdi ondan nasıl düz kümeler oluşturacağına karar vermeye çalışıyorum. Amacım gözlemlerimdeki ortak kalıpları keşfetmektir, bu nedenle elde edilen kümelemeyle karşılaştırılacak referansım yok. Pragmatik bir çözüm öneren var mı?


Web sayfamda, birçok popüler iç kümelenme ölçütünün (durma kuralları) açıklamasını (ve SPSS işlevlerini) içeren "Kümeleme ölçütleri" zip koleksiyonu var . Bilginize.
ttnphns

Yanıtlar:


18

Aşağıdaki Vikipedi girişi aslında en popüler ve nispeten basit yöntemleri açıklamak için oldukça iyi bir iş yapıyor:

Dirsek yöntem buluşsal görsel kontrol ile bağlanmış (sapma miktarı, küme sayısı ile açıklanmaktadır), basit bir açıklama için en popüler nedeniyle muhtemelen de tarif edilmektedir. Bilgi teorik yöntem ya uygulamak zor değil ve sayfa başlatmak için kullanabileceği bazı pseudocode vardır. Sonuncusu, AIC, BIC, vb. Gibi iyi bilinen bilgi kriterlerinde olduğu gibi model karmaşıklığına dayanan cezalandırılmış bir olasılığa aykırıdır.


Teşekkürler! Hiyerarşik kümelemeyle ilgili Wikipedia makalesi bu makaleyle bağlantılı değil.
Björn Pollex

2
Ah doğru. "Ayrıca bakınız" bağlantıları altında düzeltildi, bunu işaret ettiğiniz için teşekkür ederiz!
ars

Dirsek Yöntemi'nde, kümelenecek nesneler oldukça "karmaşık" ise ne olur? Yani basit noktalar değil, karmaşık veri koleksiyonlarıdır. İkili mesafe olduğunu (kendi kendine tanımlanmış mesafe) öğrendim. Dirsek Metodu uygulamak için burada "varyans" denilen nasıl hesaplardım?
Sibbs Gambling

17

Kümeleme Analizi, kullandığınız kümelenme yönteminden bağımsız olarak, verilerinizdeki "en iyi" küme sayısının nasıl seçileceğine dair kesin bir çözüm sağlamak oldukça zordur, çünkü Küme Analizi, istatistiksel birimler gruplarını izole etmeyi ister (bireyler veya değişkenler olsun) ) esasen, keşif veya tanımlayıcı amaç için. Bu nedenle, kümeleme planınızın çıktısını yorumlamanız gerekir ve birkaç küme çözümü de aynı derecede ilginç olabilir.

Şimdi, en fazla @ar ile işaret edildiği gibi, toplanacak verilerin ne zaman durması gerektiğine karar vermek için kullanılan genel istatistiksel kriterler ile ilgili olarak, dendrogramın analizi veya küme profillerinin incelenmesi de dahil olmak üzere, görsel çizimler olarak da adlandırılan siluet çizimleridir (Rousseeuw, 1987). . Geçerliliği endeksleri olarak da bilinen çeşitli sayısal kriterler de önerildi; örneğin, Dunn'ın geçerlilik indeksi, Davies-Bouldin geçerlilik indeksi, C indeksi, Hubert'in gaması. Hiyerarşik kümeleme genellikle k-araçlarıyla (aslında, stokastik bir algoritma olduğu için birkaç k-aracı örneği) birlikte çalışır, böylece bulunan kümeleme çözümlerine destek ekler. Bunların hepsinin Python'da hazır olup olmadığını bilmiyorum, ancak R'de çok fazla sayıda yöntem var (bkz.Küme görev görünümü, zaten ilgili bir soru için @ mbq tarafından zikredildi, MovieLens'e kümeleme algoritmaları uygulamak için hangi araçlar kullanılabilir? ). Verilerinizdeki küme sayısını seçmek için daha sağlam bir yol arıyorsanız, diğer yaklaşımlar arasında bulanık kümeleme ve model tabanlı kümeleme (ayrıca psikometrik toplulukta gizli özellik analizi de denir) sayılabilir .

BTW, hiyerarşik kümeleri oluşturmak, görselleştirmek ve analiz etmek için Scipy'nin bir uzantısı olan scipy -cluster , bu web sayfasına yeni rastladım . Belki başka işlevler içerir? Ayrıca , çok değişkenli analizler için oldukça iyi şeyler sunan PyChem'i de duydum .

Aşağıdaki referans da yardımcı olabilir:

Steinley, D., ve Brusco, MJ (2008). Küme analizinde değişkenlerin seçimi: Sekiz işlemin ampirik olarak karşılaştırılması. Psikometrika , 73 , 125-144.


Bu mükemmel cevap için teşekkürler! Aslında, gösterdiğin hiyerarşik kümeleme modülü zaten scipy'nin bir parçası. Ayrıca, scipy, k-araçlarının bir uygulamasını sağlar, böylece kolayca kullanabilirim.
Björn Pollex

Tamam, detaylara bakmadım. K-araçları için, küme çözümünü doğrulamak için genellikle iki dış döngüye ihtiyaç duyduğumuza dikkat etmeniz gerekir (biri küme sayısını değiştireceğiniz bir tanesi ve tohumu değiştirmek için diğeri - RSS'i en aza indirmek); o zaman, en iyi küme sayısını seçmek için Gap istatistiklerini kullanabilirsiniz.
chl

5

Son zamanlarda kümelenme görselleştirme yönteminin ( R'de uygulanan) fonu oldum .

"İyi" kümeleri değerlendirmek için ek bir yöntem kullanıyorum. Diğer kümeleme yöntemlerine genişletmek çok zor değil (aslında yaptım, kodu yayınlayamadım)

alt metin

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.