Mesafe tabanlı olmayan kümeleme algoritmaları var mı?

14

K-ortalamaları ve diğer ilgili algoritmalar için kümelenme, noktalar arasındaki mesafenin hesaplanmasına dayanmaktadır. Onsuz çalışan bir tane var mı?

— user154510
kaynak

2

Noktaların benzerliğini veya "yakınlığını" ölçmek için bir yol olmadan "kümeleme" ile ne demek istersiniz?

— whuber

2

@ Tim'in aşağıdaki cevabı çok iyi. Size yardımcı olduysa, oylamayı yükseltmeyi ve / veya kabul etmeyi düşünebilirsiniz ; 'teşekkürler' demenin güzel bir yoludur. Fikrini genişleterek, kategorik verilere benzer bir yaklaşım uygulayan gizli sınıf analizi var . Çok değişkenli çekirdek yoğunluğu tahmininin yükseklikleri aracılığıyla FMM'lere parametrik olmayan bir yaklaşım kullanılabilir. Daha fazla bilgi için Parametrik Olmayan Yoğunluk Tahmini ile Kümeleme: R Paketi pdfCluster ( pdf ) bölümüne bakın .

— gung - Monica'yı eski

25

$f$ $X$ $K$ $f_1,...,f_k$

f (x, ϑ) = \sum_{k = 1}^{K} π_{k} f_{k} (x, ϑ_{k})

$f(x, \vartheta) = \sum^K_{k=1} \pi_k f_k(x, \vartheta_k)$

$\vartheta$ $\vartheta = (\pi', \vartheta_1', ..., \vartheta_k')'$ $\pi_k$ $k$ $\vartheta_k$ $f_k$

Ayrık veriler için özel bir durum, şu şekilde tanımlanan Gizli Sınıf Analizi'dir (örn. Burada ):

P (x, k) = P (k) P (x | k)

$P(x, k) = P(k) P(x|k)$

$P(k)$ $k$ $\pi_k$ $P(x)$ $x$ $P(x|k)$ $x$ $k$

Genellikle hem FMM hem de LCA için EM algoritması tahmin için kullanılır, ancak Bayesian yaklaşımı da mümkündür, ancak model tanımlama ve etiket değiştirme gibi sorunlar nedeniyle (örneğin Xi'an'ın blogu ) biraz daha talepkar .

Yani bir uzaklık ölçüsü değil, verilerinizin yapısını (dağılımını) tanımlayan istatistiksel bir model var. Bu yöntemin diğer adı nedeniyle "model tabanlı kümeleme" dir.

FMM'deki iki kitabı kontrol edin:

McLachlan, G. ve Peel, D. (2000). Sonlu Karışım Modelleri. John Wiley ve Oğulları.
Frühwirth-Schnatter, S. (2006). Sonlu Karışım ve Markov Anahtarlama Modelleri. Springer.

FMM kullanan en popüler kümeleme paketlerinden biri, R'de uygulananmclust ( buraya veya buraya bakın ) . Bununla birlikte, daha karmaşık FMM'ler de mümkündür, örneğin paketi ve belgelerini kontrol edin . LCA için bir R poLCA paketi vardır .flexmix

— Tim
kaynak

Farklı kullanım durumlarının ne olabileceği konusunda iyi bir fikriniz var mı?

— shadowtalker

"Medoidlerin etrafında bölümlemek yerine bunu ne zaman kullanmalıyım?" Yine de çok güzel bir cevap

— shadowtalker

1

@caveman bunun sadece gösterimsel bir sözleşme olduğunu belirtiyor. Vektörlerin bir vektörü, hepsi bu.

— Tim

1

k

$k$

f_{1}, . . ., f_{k}

$f_1,...,f_k$

1

k

$k$

7

$\sim$

Şebekeye dayalı çok sayıda kümeleme yaklaşımı vardır . Mesafeleri hesaplamazlar çünkü bu genellikle ikinci dereceden çalışma zamanı sağlar. Bunun yerine, verileri bölümlere ayırır ve ızgara hücrelerine toplarlar. Ancak bu tür yaklaşımların ardındaki sezgi genellikle mesafelerle çok yakından ilgilidir.

COOLCAT ve STUCCO gibi kategorik veriler için bir dizi kümeleme algoritması vardır . Mesafelerin bu tür verilerle kullanımı kolay değildir (bir sıcak kodlama bir hack'tir ve özellikle anlamlı mesafeler vermez). Ama bu algoritmaları kullanan kimseyi duymadım ...

Grafikler için kümeleme yaklaşımları vardır. Ancak ya klik ya da kültüre yakın bulma ve grafik renklendirme gibi klasik grafik problemlerine indirgenir ya da mesafe tabanlı kümelemeyle yakından ilişkilidirler (ağırlıklı bir grafiğiniz varsa).

DBSCAN gibi yoğunluk tabanlı kümeleme farklı bir isme sahiptir ve mesafeleri en aza indirmeye odaklanmaz; ancak "yoğunluk" genellikle bir mesafeye göre belirtilir, bu nedenle teknik olarak bu algoritmalar mesafe veya ızgaraya dayalıdır.

Sorunuzun dışında bıraktığınız önemli kısmı verileriniz nedir?

— QUIT Vardır - Anony-Mousse
kaynak

1

+1: Herhangi bir kümeleme algoritmasının örtük (belki de) genelleştirilmiş bir "mesafe" veya "benzerlik" hissini nasıl kullandığını gösterdiğinizi ve bu tür algoritmaların bir anketini sunarken bunu yaptığınızı takdir ediyorum.

— whuber

"Mesafe tabanlı" ile varyans içeren benzerlik metriklerini kastettiğini düşünüyorum.

— en1

1

Varyans neden benzerlik ölçüsü olabilir? Öklid kare mesafesiyle ilgilidir; ancak keyfi mesafeye eşdeğer değil s .

— ÇIKIŞ - Anony-Mousse

2

Önceki güzel cevaplara ek olarak, Dirichlet karışım modellerini ve Bayesian tabanlı hiyerarşik Dirichlet işlem modellerini de göz önünde bulundurmanızı öneririm . Optimum sayıda kümeyi belirlemeye yönelik yaklaşımlara ve yöntemlere oldukça kapsamlı ve genel bir bakış için lütfen StackOverflow'daki şu mükemmel cevaba bakın : /programming//a/15376462/2872891 .

— Aleksandr Blekh
kaynak

2

Tamamen ayrımcı bir yaklaşım Gomes ve ark . Tarafından "düzenli bilgi maksimizasyonu" dur . İçinde hiçbir benzerlik / mesafe kavramı yoktur.

Fikir, noktaları çöp kutularına koyan bir lojistik regresyon modeline sahip olmaktır. Ancak, sınıf etiketlerinin bir tür günlük olasılığını en üst düzeye çıkarmak için onu eğitmek yerine, amaç işlevi, noktaları farklı kümelere koyan bir işlevdir.

$\lambda$

Doğrusal olmayan kümeleme için çekirdek yöntemlerine veya sinir ağlarına genişletme kolaydır.

— bayerj
kaynak