K-araçları kümelemede küme sayısı nasıl tanımlanır?


19

En uygun küme numarasını belirlemenin herhangi bir yolu var mı yoksa en iyi değere karar vermek için sadece farklı değerleri denemeli ve hata oranlarını kontrol etmeli miyim?


1
@berkay Bu denetimsiz yöntem için bir hata oranını nasıl tanımlarsınız? (veya SS içinde mi demek istediniz?)
chl

@chl, tüm kümeler veya genel doğruluk için kare hataların toplamını kullanabilirim (bu durumda sınıf etiketlerini biliyorum.)
berkay

3
@berkay No. kümelerini bulmak için basit bir algoritma, artan sayıda kümede (2 ile başlayan ve 9 veya 10 ile biten) 20 k-ortalama koşulu için ortalama WSS'yi hesaplamak ve Bu kümeler üzerinden minimum WSS ayarlandı. Başka bir yöntem de Gap istatistiğidir . Ancak zaten örnekleri etiketlediyseniz, neden denetimsiz bir yöntem deniyorsunuz?
chl

@ chl teşekkürler, iyi soru, örneklerin özelliklerine bağlı olarak kümeleri tahmin edebilirim, yeni izinsiz giriş özelliklerini analiz ediyorum, yasal uygulamaların taklididir.
berkay

2
Buraya yarım düzine yöntemle (kullanarak R) benzer bir Q yanıtladım : stackoverflow.com/a/15376462/1036500
Ben

Yanıtlar:


8

Kullandığım yöntem CCC (Kübik Kümeleme Kriterleri) kullanmaktır. Küme sayısını 1 arttırdığımda CCC'yi maksimuma çıkaracağım ve sonra CCC'nin ne zaman azalmaya başladığını gözlemliyorum. Bu noktada, kümelerin sayısını (yerel) maksimumda alırım. Bu, temel bileşenlerin sayısını seçmek için bir eğri çizgi çizimi kullanmaya benzer.


SAS Teknik Raporu A-108 Kübik Kümeleme Ölçütü ( pdf )

n k k p q X n × p M q × p Z z i k = 1 i kn = gözlem sayısı = kümedeki sayı = değişken sayısı = küme sayısı = veri matrisi = küme matrisi = küme göstergesi anlamına gelir ( eğer küme , , aksi takdirde 0)
nkk
p
q
Xn×p
Mq×p
Zzik=1ik

Her değişkenin ortalama 0 olduğunu varsayın: ,
M = ( Z Z ) - 1 Z XZZ=diag(n1,,nq)M=(ZZ)1ZX

T X X S S B M Z Z M S S W T - BSS (toplam) matrisi = = (kümeler arasında) matrisi = = (kümeler içinde) matrisi = =TXX
SSBMZZM
SSWTB

R2=1trace(W)trace(T)
(trace = köşegen elemanların toplamı)

sütunlarını uzun bir sütuna yığınlayın. Gerilemeye Kronecker'in ürün arasında ile özdeşlik matrisi hesaplayın , bu gerileme yönünden - AynıX
Zp×p
R2R2

CCC fikri karşılaştırmaktır Birlikte kümelerinin kümesi verilen almak sen noktaların düzgün yayılı seti kümeleme alacağı boyutlu uzayda.R2R2p


2
CCC dışında başka kriterler de vardır. Ana kümeleri görmek için bir veri kümesindeki küme sayısını belirleme konusuna bakın.
Vincent Labatut
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.