Kümeleme Analizi, kullandığınız kümelenme yönteminden bağımsız olarak, verilerinizdeki "en iyi" küme sayısının nasıl seçileceğine dair kesin bir çözüm sağlamak oldukça zordur, çünkü Küme Analizi, istatistiksel birimler gruplarını izole etmeyi ister (bireyler veya değişkenler olsun) ) esasen, keşif veya tanımlayıcı amaç için. Bu nedenle, kümeleme planınızın çıktısını yorumlamanız gerekir ve birkaç küme çözümü de aynı derecede ilginç olabilir.
Şimdi, en fazla @ar ile işaret edildiği gibi, toplanacak verilerin ne zaman durması gerektiğine karar vermek için kullanılan genel istatistiksel kriterler ile ilgili olarak, dendrogramın analizi veya küme profillerinin incelenmesi de dahil olmak üzere, görsel çizimler olarak da adlandırılan siluet çizimleridir (Rousseeuw, 1987). . Geçerliliği endeksleri olarak da bilinen çeşitli sayısal kriterler de önerildi; örneğin, Dunn'ın geçerlilik indeksi, Davies-Bouldin geçerlilik indeksi, C indeksi, Hubert'in gaması. Hiyerarşik kümeleme genellikle k-araçlarıyla (aslında, stokastik bir algoritma olduğu için birkaç k-aracı örneği) birlikte çalışır, böylece bulunan kümeleme çözümlerine destek ekler. Bunların hepsinin Python'da hazır olup olmadığını bilmiyorum, ancak R'de çok fazla sayıda yöntem var (bkz.Küme görev görünümü, zaten ilgili bir soru için @ mbq tarafından zikredildi, MovieLens'e kümeleme algoritmaları uygulamak için hangi araçlar kullanılabilir? ). Verilerinizdeki küme sayısını seçmek için daha sağlam bir yol arıyorsanız, diğer yaklaşımlar arasında bulanık kümeleme ve model tabanlı kümeleme (ayrıca psikometrik toplulukta gizli özellik analizi de denir) sayılabilir .
BTW, hiyerarşik kümeleri oluşturmak, görselleştirmek ve analiz etmek için Scipy'nin bir uzantısı olan scipy -cluster , bu web sayfasına yeni rastladım . Belki başka işlevler içerir? Ayrıca , çok değişkenli analizler için oldukça iyi şeyler sunan PyChem'i de duydum .
Aşağıdaki referans da yardımcı olabilir:
Steinley, D., ve Brusco, MJ (2008). Küme analizinde değişkenlerin seçimi: Sekiz işlemin ampirik olarak karşılaştırılması. Psikometrika , 73 , 125-144.