Bu en azından birkaç saattir aklımda. Ben k-ortalamalar algoritmasından ( kosinüs benzerlik metriği ile ) çıktı için optimal bir k bulmaya çalışıyordum, bu yüzden çarpıklığı kümelerin sayısının bir fonksiyonu olarak çizdim. Veri setim, 600 boyutlu bir alanda 800 belgeden oluşan bir koleksiyon.
Anladığım kadarıyla, bu eğri üzerindeki diz noktasını veya dirsek noktasını bulmak, en azından yaklaşık verilerimi yerleştirmem gereken kümelerin sayısını söylemelidir. Grafiği aşağıya koydum. Kırmızı dikey çizginin çizildiği nokta, maksimum ikinci türev testi kullanılarak elde edildi . Tüm bunları yaptıktan sonra, çok daha basit bir şeye sıkıştım: bu grafik bana veri seti hakkında ne anlatıyor?
Bana kümelenmeye değmediğini ve belgelerimin yapısının olmadığını veya çok yüksek bir k ayarlamam gerektiğini söylüyor mu? Garip bir şey, düşük k ile bile, benzer belgelerin birlikte kümelendiğini görüyorum, bu yüzden bu eğriyi neden aldığımdan emin değilim. Düşüncesi olan var mı?
terms x document
tekil vektör yaptıktan sonra elde edildi ayrışma. Lütfen yanılıyorsam beni düzeltin.