Hiyerarşik kümeleme için doğru bağlantı yöntemini seçme

Ben yapıyorum hiyerarşik kümeleme Google BigQuery'ye üzerinde reddit veri dökümü toplanan ve işlenen ettik verilere.

İşlemim şöyle:

/ R / politics'teki en son 1000 yayını al
Tüm yorumları topla
Verileri işleyin ve bir n x mveri matrisi hesaplayın (n: kullanıcılar / samples, m: posts / features)
Hiyerarşik kümeleme için uzaklık matrisini hesaplayın
Bir bağlantı yöntemi seçin ve hiyerarşik kümelemeyi gerçekleştirin
Verileri bir dendrogram olarak çiz

Sorum şu ki, en iyi bağlantı yönteminin ne olduğunu nasıl belirleyebilirim ? Şu anda kullanıyorum Wardama kullanıyor gerekip gerekmediğini nasıl anlarım single, complete, average, vs?

Bu konuda çok yeniyim ama çevrimiçi olduğundan net bir cevap bulamıyorum çünkü bir tane olduğundan emin değilim. Peki başvurum için iyi bir fikir ne olabilir? Verilerin, n x mmatrisin çok fazla sıfıra sahip olması anlamında oldukça seyrek olduğuna dikkat edin (çoğu insan birkaç yazıdan daha fazla yorum yapmaz).

— Kevin Eger
kaynak

Belirli bir bağlantı sorununu bir kenara koyarsak, bağlamınızda "en iyi" ne anlama gelir?

— gung - Reinstate Monica

Benim için en iyisi, verilerimi bağlamanın en mantıklı yolunu bulmak. Yani: Hangi yaklaşım doğru bir şekilde benim özelliklerinde "mesafe" ile kastedilen tanımlar.

— Kevin Eger

Kevin, Lütfen bu cevaba ve bu son soruya bir göz atın . Yükseleceğiniz sorunun ("hangi yöntemi kullanacağınız") kolay olmadığını öğreneceksiniz. Yöntemler arasındaki farkı görmeden ve seçebilmeden önce, kümelenme hakkındaki literatürü kesinlikle okumalısınız (en azından hiyerarşik). Veri analizi elden ele alınmamalıdır.

— ttnphns

@ Ttnphns, bağlantı için teşekkürler - iyi bir okundu ve bu noktaları dikkate alacağım.

— Kevin Eger

Yöntemlere genel bakış

Hiyerarşik aglomeratif küme analizi (HAC) bazı bağlantı yöntemleri hakkında kısa referans .

HAC algoritmasının temel versiyonu bir geneldir; her adımda, Lance-Williams formülü olarak bilinen formüle göre, ortaya çıkan (ikiyle birleştirilen) küme ile şimdiye kadar varolan diğer tüm kümeler (tekli nesneler dahil) arasındaki yakınlıkların güncellenmesi söz konusudur. Lance-Williams formülünü kullanmayan uygulamalar var. Ancak kullanımı uygundur: bir şablonun aynı şablon tarafından çeşitli bağlantı yöntemlerini kodlamasına izin verir .

Yineleme formülü birkaç parametre içerir (alfa, beta, gama). Bağlantı yöntemine bağlı olarak, parametreler farklı ayarlanır ve böylece açılmamış formül belirli bir görünüm elde eder. HAC ile ilgili birçok metin formülü, yöntemine özgü görüşlerini gösterir ve yöntemleri açıklar. Janos Podani'nin makalelerini çok ayrıntılı bir şekilde tavsiye ederim.

Farklı yöntemlere yönelik oda ve ihtiyaç, iki küme arasındaki veya bir küme ile bir tekton nesnesi arasındaki yakınlığın (uzaklık veya benzerlik) birçok farklı şekilde formüle edilemesinden kaynaklanmaktadır. HAC her adımda en yakın iki kümeyi veya noktayı birleştirir, ancak giriş yakınlığı matrisinin sadece tekil nesneler arasında tanımlandığı yüzündeki yukarıda belirtilen yakınlığın hesaplanması nasıl formüle edileceğidir.

Bu nedenle, yöntemler her adımda iki küme arasındaki yakınlığı nasıl tanımladıklarına göre farklılık gösterir. "Kolligasyon katsayısı" (aglomerasyon çizelgesinde / geçmişinde çıktı ve bir dendrogramda "Y" eksenini oluşturan), belirli bir adımda birleştirilen iki küme arasındaki yakınlıktır.

Tek bağlantı yöntemi veya en yakın komşu . İki küme arasındaki yakınlık, en yakın iki nesnesi arasındaki yakınlıktır. Bu değer giriş matrisinin değerlerinden biridir. Bu küme yapısının kavramsal metaforu , onun arketipi spektrum veya zincirdir . Zincirler düz veya eğrisel olabilir veya "kar tanesi" veya "amip" görünümü gibi olabilir. En çok benzeyen iki küme üyesi, en çok benzeyen iki gruba kıyasla çok farklı olabilir. Tek bağlantı yöntemi yalnızca en yakın komşuların benzerliğini kontrol eder.
Tam bağlantı yöntemi veya en uzak komşu . İki küme arasındaki yakınlık, en uzaktaki iki nesnesi arasındaki yakınlıktır. Bu değer giriş matrisinin değerlerinden biridir. Bu kümelenme kümesinin metaforu, diğer üyelerden en uzak olan iki kişinin ( çember içinde olduğu gibi) diğer birbirinden en uzak olanların birbirinden çok farklı olamayacağı bir çemberdir (anlamda, hobi veya arsa tarafından). Bu tür kümeler, sınırlarıyla "kompakt" konturlardır, ancak içinde mutlaka kompakt olmaları gerekmez.
Yöntemi gruplar arası ortalama bağ (UPGMA). İki küme arasındaki yakınlık, bir taraftaki nesneler ile diğer taraftaki nesneler arasındaki diğer tüm nesnelerin aritmetik ortalamasıdır. Bu kümelenme kümesinin metaforu oldukça genel, sadece birleşik sınıf veya sıkı sıkıya bağlı bir kolektif; ve yöntem genellikle varsayılanı hiyerarşik kümeleme paketlerinde ayarlar. Çeşitli şekil ve ana hat kümeleri üretilebilir.
Basit ortalama veya grup ortası bağlantı arasındaki dengeyi (WPGMA) önceki yöntemle değiştirdi. İki küme arasındaki yakınlık, bir taraftaki nesneler ile diğer taraftaki nesneler arasındaki diğer tüm nesnelerin aritmetik ortalamasıdır; Bu iki kümenin her birinin birleştirildiği alt kümeler yakın zamanda birleştiğinde, alt kümeler nesne sayısında farklılık gösterse bile.
Yöntemi grubun içindeki ortalama bağ (MNDIS). İki küme arasındaki yakınlık, eklem kümelerindeki tüm yakınlıkların aritmetik ortalamasıdır. Bu yöntem UPGMA'ya bir alternatiftir. Genellikle küme yoğunluğu açısından kaybedecek, ancak bazen UPGMA'nın yapamayacağı küme şekillerini ortaya çıkaracaktır.
Centroid yöntemi (UPGMC). İki küme arasındaki yakınlık, geometrik centroidleri arasındaki yakınlıktır: bunlar arasındaki [kare] öklid mesafesi. Bu kümelenme kümesinin metaforu, platformların (politika) yakınlığıdır . Siyasi partilerde olduğu gibi, bu tür kümelenmelerde kesirler veya "hizipler" olabilir, ancak merkezi değerleri birbirinden ayrı olmadıkça sendika tutarlı olur. Kümeler anahatlarla çeşitli olabilir.
Ortanca veya dengeli centroid metodu (WPGMC) daha önce değiştirilmiş. İki küme arasındaki yakınlık, geometrik centroidleri arasındaki mesafedir (bunlar arasındaki [kare] öklid mesafesi); Merkezler tanımlanırken, bu iki kümenin her birinin son zamanlarda bir araya getirildiği alt kümelerin, merkez kümeleri üzerinde eşit bir etkiye sahip olduğu, yani alt kümeler nesnelerin sayısında farklılık gösterse bile eşitlenmiştir.
Ward’ın yöntemi ya da bazen yanlış "minimum sapma" yöntemi olarak adlandırılan kareler toplamının (MISSQ) minimum artışı . İki küme arasındaki yakınlık, eklem kümelerindeki toplanan karenin, bu iki kümedeki toplanan karelerden büyük olacağı büyüklüğüdür: $SS_{12}-(SS_1+SS_2)$ . (İki singleton nesnesi arasında bu miktar = kare öklid uzaklığı / $2$ .) Bu küme yapısının metaforu türdür . Sezgisel olarak, bir tür, ortalarına doğru daha yoğun ve daha konsantre bir bulut iken, marjinal noktalar azdır ve nispeten serbest bir şekilde dağılabilir.

Daha az bilinen yöntemlerden bazıları (bkz. Podany J. Yeni kombinasyonlu kümeleme yöntemleri // Vegetatio, 1989, 81: 61-77.)

Minimum kareler toplamı yöntemi (MNSSQ). İki küme arasındaki yakınlık, ortak kümelerinde toplanan karedir: $SS_{12}$ . (İki singleton nesnesi arasında bu miktar = kare öklid uzaklığı / $2$ .)
Method of minimal increase of variance (MIVAR). Proximity between two clusters is the magnitude by which the mean square in their joint cluster will be greater than the weightedly (by the number of objects) averaged mean square in these two clusters: $MS_{12}-(n_1MS_1+n_2MS_2)/(n_1+n_2) = [SS_{12}-(SS_1+SS_2)]/(n_1+n_2)$ . (Between two singleton objects this quantity = squared euclidean distance / $4$ .)
Method of minimal variance (MNVAR). Proximity between two clusters is the mean square in their joint cluster: $MS_{12} = SS_{12}/(n_1+n_2)$ . (Between two singleton objects this quantity = squared euclidean distance / $4$ .).

First 5 methods permit any proximity measures (any similarities or distances) and results will, naturally, depend on the measure chosen.

Last 6 methods require distances; and fully correct will be to use only squared euclidean distances with them, because these methods compute centroids in euclidean space. Therefore distances should be euclidean for the sake of geometric correctness (these 6 methods are called together geometric linkage methods). At worst case, you might input other metric distances at admitting more heuristic, less rigorous analysis. Now about that "squared". Computation of centroids and deviations from them are most convenient mathematically/programmically to perform on squared distances, that's why HAC packages usually require to input and are tuned to process the squared ones. However, there exist implementations - fully equivalent yet a bit slower - based on nonsquared distances input and requiring those; see for example "Ward-2" implementation for Ward's method. You should consult with the documentation of you clustering program to know which - squared or not - distances it expects at input to a "geometric method" in order to do it right.

Methods MNDIS, MNSSQ, and MNVAR require on steps, in addition to just update the Lance-Williams formula, to store a within-cluster statistic (which depends on the method).

Methods which are most frequently used in studies where clusters are expected to be solid more or less round clouds, - are methods of average linkage, complete linkage method, and Ward's method.

Ward's method is the closest, by it properties and efficiency, to K-means clustering; they share the same objective function - minimization of the pooled within-cluster SS "in the end". Of course, K-means (being iterative and if provided with decent initial centroids) is usually a better minimizer of it than Ward. However, Ward seems to me a bit more accurate than K-means in uncovering clusters of uneven physical sizes (variances) or clusters thrown about space very irregularly. MIVAR method is weird to me, I can't imagine when it could be recommended, it doesn't produce dense enough clusters.

Methods centroid, median, minimal increase of variance – may give sometimes the so-called reversals: a phenomenon when the two clusters being merged at some step appear closer to each other than pairs of clusters merged earlier. That is because these methods do not belong to the so called ultrametric. This situation is inconvenient but is theoretically OK.

Methods of single linkage and centroid belong to so called space contracting, or “chaining”. That means - roughly speaking - that they tend to attach objects one by one to clusters, and so they demonstrate relatively smooth growth of curve “% of clustered objects”. On the contrary, methods of complete linkage, Ward’s, sum-of-squares, increase of variance, and variance commonly get considerable share of objects clustered even on early steps, and then proceed merging yet those – therefore their curve “% of clustered objects” is steep from the first steps. These methods are called space dilating. Other methods fall in-between.

Flexible versions. By adding the additional parameter into the Lance-Willians formula it is possible to make a method become specifically self-tuning on its steps. The parameter brings in correction for the being computed between-cluster proximity, which depends on the size (amount of de-compactness) of the clusters. The meaning of the parameter is that it makes the method of agglomeration more space dilating or space contracting than the standard method is doomed to be. Most well-known implementation of the flexibility so far is to average linkage methods UPGMA and WPGMA (Belbin, L. et al. A Comparison of Two Approaches to Beta-Flexible Clustering // Multivariate Behavioral Research, 1992, 27, 417–433.).

Dendrogram. On a dendrogram "Y" axis, typically displayed is the proximity between the merging clusters - as defined by methods above. Therefore, for example, in centroid method the squared distance is typically gauged (ultimately, it depends on the package and it options) - some researches are not aware of that. Also, by tradition, with methods based on increment of nondensity, such as Ward’s, usually shown on the dendrogram is cumulative value - it is sooner for convenience reasons than theoretical ones. Thus, (in many packages) the plotted coefficient in Ward’s method represents the overall, across all clusters, within-cluster sum-of-squares observed at the moment of a given step.

One should refrain from judging which linkage method is "better" for his data by comparing the looks of the dendrograms: not only because the looks change when you change what modification of the coefficient you plot there - as it was just described, - but because the look will differ even on the data with no clusters.

To choose the "right" method

There is no single criterion. Some guidelines how to go about selecting a method of cluster analysis (including a linkage method in HAC as a particular case) are outlined in this answer and the whole thread therein.

— ttnphns
kaynak

The correlation between the distance matrix and the cophenetic distance is one metric to help assess which clustering linkage to select. From ?cophenetic:

It can be argued that a dendrogram is an appropriate summary of some data if the correlation between the original distances and the cophenetic distances is high.

This use of cor(dist,cophenetic(hclust(dist))) as a linkage selection metric is referenced in pg 38 of this vegan vignette.

See example code below:

# Data
d0=dist(USArrests)

# Hierarchical Agglomerative Clustering
h1=hclust(d0,method='average')
h2=hclust(d0,method='complete')
h3=hclust(d0,method='ward.D')
h4=hclust(d0,method='single')

# Cophenetic Distances, for each linkage
c1=cophenetic(h1)
c2=cophenetic(h2)
c3=cophenetic(h3)
c4=cophenetic(h4)

# Correlations
cor(d0,c1) # 0.7658983
cor(d0,c2) # 0.7636926
cor(d0,c3) # 0.7553367
cor(d0,c4) # 0.5702505

# Dendograms
par(mfrow=c(2,2))
plot(h1,main='Average Linkage')
plot(h2,main='Complete Linkage')
plot(h3,main='Ward Linkage')
plot(h4,main='Single Linkage')
par(mfrow=c(1,1))

We see that the correlations for average and complete are extremely similar, and their dendograms appear very similar. The correlation for ward is similar to average and complete but the dendogram looks fairly different. single linkage is doing its own thing. Best professional judgement from a subject matter expert, or precedence toward a certain link in the field of interest should probably override numeric output from cor().

— kakarot
kaynak