K-ortalamaları ve diğer ilgili algoritmalar için kümelenme, noktalar arasındaki mesafenin hesaplanmasına dayanmaktadır. Onsuz çalışan bir tane var mı?
K-ortalamaları ve diğer ilgili algoritmalar için kümelenme, noktalar arasındaki mesafenin hesaplanmasına dayanmaktadır. Onsuz çalışan bir tane var mı?
Yanıtlar:
Ayrık veriler için özel bir durum, şu şekilde tanımlanan Gizli Sınıf Analizi'dir (örn. Burada ):
Genellikle hem FMM hem de LCA için EM algoritması tahmin için kullanılır, ancak Bayesian yaklaşımı da mümkündür, ancak model tanımlama ve etiket değiştirme gibi sorunlar nedeniyle (örneğin Xi'an'ın blogu ) biraz daha talepkar .
Yani bir uzaklık ölçüsü değil, verilerinizin yapısını (dağılımını) tanımlayan istatistiksel bir model var. Bu yöntemin diğer adı nedeniyle "model tabanlı kümeleme" dir.
FMM'deki iki kitabı kontrol edin:
FMM kullanan en popüler kümeleme paketlerinden biri, R'de uygulananmclust
( buraya veya buraya bakın ) . Bununla birlikte, daha karmaşık FMM'ler de mümkündür, örneğin paketi ve belgelerini kontrol edin . LCA için bir R poLCA paketi vardır .flexmix
Şebekeye dayalı çok sayıda kümeleme yaklaşımı vardır . Mesafeleri hesaplamazlar çünkü bu genellikle ikinci dereceden çalışma zamanı sağlar. Bunun yerine, verileri bölümlere ayırır ve ızgara hücrelerine toplarlar. Ancak bu tür yaklaşımların ardındaki sezgi genellikle mesafelerle çok yakından ilgilidir.
COOLCAT ve STUCCO gibi kategorik veriler için bir dizi kümeleme algoritması vardır . Mesafelerin bu tür verilerle kullanımı kolay değildir (bir sıcak kodlama bir hack'tir ve özellikle anlamlı mesafeler vermez). Ama bu algoritmaları kullanan kimseyi duymadım ...
Grafikler için kümeleme yaklaşımları vardır. Ancak ya klik ya da kültüre yakın bulma ve grafik renklendirme gibi klasik grafik problemlerine indirgenir ya da mesafe tabanlı kümelemeyle yakından ilişkilidirler (ağırlıklı bir grafiğiniz varsa).
DBSCAN gibi yoğunluk tabanlı kümeleme farklı bir isme sahiptir ve mesafeleri en aza indirmeye odaklanmaz; ancak "yoğunluk" genellikle bir mesafeye göre belirtilir, bu nedenle teknik olarak bu algoritmalar mesafe veya ızgaraya dayalıdır.
Sorunuzun dışında bıraktığınız önemli kısmı verileriniz nedir?
Önceki güzel cevaplara ek olarak, Dirichlet karışım modellerini ve Bayesian tabanlı hiyerarşik Dirichlet işlem modellerini de göz önünde bulundurmanızı öneririm . Optimum sayıda kümeyi belirlemeye yönelik yaklaşımlara ve yöntemlere oldukça kapsamlı ve genel bir bakış için lütfen StackOverflow'daki şu mükemmel cevaba bakın : /programming//a/15376462/2872891 .
Tamamen ayrımcı bir yaklaşım Gomes ve ark . Tarafından "düzenli bilgi maksimizasyonu" dur . İçinde hiçbir benzerlik / mesafe kavramı yoktur.
Fikir, noktaları çöp kutularına koyan bir lojistik regresyon modeline sahip olmaktır. Ancak, sınıf etiketlerinin bir tür günlük olasılığını en üst düzeye çıkarmak için onu eğitmek yerine, amaç işlevi, noktaları farklı kümelere koyan bir işlevdir.
Doğrusal olmayan kümeleme için çekirdek yöntemlerine veya sinir ağlarına genişletme kolaydır.