İşte soruyu cevaplamaya yardımcı olabilecek birkaç kümeleme algoritmasının bir özeti
"hangi kümeleme tekniğini kullanmalıyım?"
Nesnel olarak "doğru" kümeleme algoritması yoktur Ref
Kümeleme algoritmaları "küme modeline" göre kategorize edilebilir. Belirli bir model için tasarlanmış bir algoritma genellikle farklı bir modelde başarısız olacaktır. Örneğin, k-araçları dışbükey olmayan kümeleri bulamaz, yalnızca dairesel şekilli kümeleri bulabilir.
Bu nedenle, bu “kümelenme modellerini” anlamak, çeşitli kümelenme algoritmaları / yöntemleri arasından nasıl seçileceğini anlamak için bir anahtar haline gelir. Tipik küme modelleri şunları içerir:
[1] Bağlantı modelleri: Uzaktan bağlantıya bağlı modeller oluşturur. Hiyerarşik kümeleme. Ağaç kesim yüksekliğine göre farklı bölümlere ihtiyaç duyduğumuzda kullanılır. R fonksiyonu: istatistik paketinde hclust.
[2] Centroid modelleri: Her kümeyi tek bir ortalama vektör ile temsil ederek modeller oluşturur. Keskin bölümlere ihtiyaç duyduğumuzda kullanılır (daha sonra tarif edilen bulanık kümelemenin aksine). R fonksiyonu: istatistik paketinde km.
[3] Dağıtım modelleri: Beklenti maksimizasyon algoritması tarafından kullanılan çok değişkenli normal dağılımlar gibi istatistiksel dağılımlara dayalı modeller oluşturur. Küme şekilleri, dairesel kümeleri varsayan k araçlarından farklı olarak keyfi olduğunda kullanılır. R fonksiyonu: emcluster paketindeki emcluster.
[4] Yoğunluk modelleri: Veri alanındaki yoğun bölgeler olarak bağlı kümelere dayalı modeller oluşturur. Örneğin DBSCAN ve OPTİK. Küme şekilleri, dairesel kümeleri varsayan k-araçlarından farklı olarak keyfi olduğunda kullanılır. R dbscan paketinde R işlevi dbscan.
[5] Alt uzay modelleri: Hem küme üyelerine hem de ilgili özelliklere dayalı modeller oluşturur. Örneğin kümeleme (birlikte kümeleme veya iki modlu kümeleme olarak da bilinir). Eşzamanlı satır ve sütun kümelemesi gerektiğinde kullanılır. Biclust paketinde R fonksiyonu biclust.
[6] Grup modelleri: Gruplama bilgilerine göre modeller oluşturur. İşbirlikçi filtreleme (öneri algoritması). R fonksiyonu recomenderlab paketinde Tavsiye.
[7] Grafik tabanlı modeller: Klibe dayalı modeller oluşturur. Topluluk yapısı algılama algoritmaları, yönlendirilmiş veya yönlendirilmemiş grafiklerde yoğun altyazıları bulmaya çalışır. Örneğin, igraph paketindeki R işlevi cluster_walktrap.
[8] Kohonen Kendi Kendini Düzenleyen Özellik Haritası: Sinir ağına dayalı modeller oluşturur. R, kohonen paketinde som işlevi görür.
[9] Spektral Kümeleme: Dışbükey olmayan küme yapısına dayalı olarak veya merkezin bir ölçüsü tüm kümenin uygun bir açıklaması olmadığında modelleri oluşturur. Kernlab paketindeki R fonksiyonu specc.
[10] alt uzay kümelenmesi: Yüksek boyutlu veriler için mesafe işlevleri problemli olabilir. küme modelleri küme için ilgili özellikleri içerir. Örneğin, R paketi HDclassif'teki hddc işlevi.
[11] Dizi kümeleme: İlişkili olan grup dizileri. rBlast paketi.
[12] Afinite yayılımı: Veri noktaları arasında geçen mesaja dayalı modeller oluşturur. Algoritmayı çalıştırmadan önce küme sayısının belirlenmesini gerektirmez. Bazı bilgisayar vizyonu ve hesaplamalı biyoloji görevleri için, örneğin insan yüzlerinin resimlerinin kümelenmesi ve düzenlenmiş transkriptlerin tanımlanması, k-araçlarından Ref Rpackage APCluster'dan daha iyidir.
[13] Akış kümelenmesi: Telefon kayıtları, finansal işlemler vb. Sürekli olarak gelen verilere dayalı modeller oluşturur. Ör R BIRCH paketi [ https://cran.r-project.org/src/contrib/Archive/birch/]
[14] Doküman kümeleme (veya metin kümeleme): SVD'yi temel alan modeller oluşturur. Konu çıkarmada kullandı. Örneğin, Havuç [ http://search.carrot2.org] , belgeleri tematik kategorilere ayırabilen açık kaynak kodlu bir arama motorudur.
[15] Gizli sınıf modeli: Gözlemlenmiş çok değişkenli değişkenlerin bir dizi gizli değişkenle ilişkilendirilmesiyle ilgilidir. LCA işbirlikçi filtrelemede kullanılabilir. R fonksiyonu recomenderlab paketinde bulunan Tavsiye edici, işbirlikçi filtreleme işlevine sahiptir.
[16] Biclustering: İki modlu verilerin satırlarını ve sütunlarını aynı anda kümelemek için kullanılır. Örneğin paket biclust'taki R fonksiyonu biclust.
[17] Yumuşak kümeleme (bulanık kümeleme): Her nesne, her kümeye belirli bir dereceye aittir. Örneğin, fclust paketindeki R Fclust işlevi.