Hiyerarşik Kümelenmenin dezavantajları nasıl anlaşılır?

19

Birisi Hiyerarşik Kümelenmenin artılarını ve eksilerini açıklayabilir mi?

Hiyerarşik Kümeleme, K ile aynı dezavantajlara sahip mi?
Hiyerarşik Kümelemenin K'ye göre avantajları nelerdir?
H ortalamalarını Hiyerarşik Kümeleme üzerinde ne zaman kullanmalıyız?

Bu yazının cevapları k'ın çok iyi olduğu dezavantajlarını açıklıyor. K-araçlarının dezavantajları nasıl anlaşılır

— GeorgeOfTheRF
kaynak

2

Gelen bu cevap ben hiyerarşik Aglomeratif küme analizinin olası sorunlu yönleri bazı dokundu. Ana "dezavantaj", iteratif olmayan, tek geçişli açgözlü algoritma olmasıdır. Açgözlü bir algoritma ile, mevcut adımın görevini optimize edersiniz - çoğu HC yöntemi için - uzak bir gelecekte atmanız gereken en iyi bölümü garanti etmez. HC'nin ana avantajı, kullanılacak yakınlık ölçümü seçimine göre esnek olmasıdır. @Mic zaten aşağıda iyi bir cevap verdi, bu yüzden sadece yankılanıyorum.

— ttnphns

14

Oysa $k$ bir küresel hedef (kümelerinin varyans) optimize etmek için çalışır anlamına gelmektedir ve yerel bir optimum, bir potansiyel optimal çözelti içinde tam olarak yapılır, her küme füzyon (Algoritma) en iyi adımı bulma ama elde edilen en yığılabilir hiyerarşik küme farklı hedef takip edilmektedir .

Temel verilerin hiyerarşik bir yapısı varsa (finansal piyasalardaki korelasyonlar gibi) ve hiyerarşiyi kurtarmak istediğinizde hiyerarşik kümeleme kullanılmalıdır. Hala uygulayabilirsiniz $k$ yapmak araçlarını , ancak iç içe olmayan bölümler (en kaba olandan (kümedeki tüm veri noktaları) en ince olana (her veri noktası bir kümedir)) uygun bir hiyerarşi değil.

Kümelemenin daha ince özelliklerini incelemek istiyorsanız, gibi düz kümelemeye karşı çıkmak istemeyebilirsiniz. $k$ Tek, Ortalama, Tam Bağlantılar gibi hiyerarşik kümelemeye . Örneğin, tüm bu kümelenmeler alandan tasarruf sağlar, yani kümeler oluştururken alanı bozmazsınız, oysa Ward gibi hiyerarşik bir küme alan tasarrufu sağlamaz, yani her birleştirme adımında metrik alanı deforme eder.

Sonuç olarak, hiyerarşik kümeleme algoritmalarının dezavantajları birinden diğerine çok farklı olabilir. Bazıları $k$ araçlarına benzer özellikleri paylaşabilir : Ward varyansı optimize etmeyi amaçlar, ancak Tek Bağlantı değildir. Ancak farklı özelliklere de sahip olabilirler: Koğuş uzay genişleticidir, Tek Bağlantı ise -anlamına gelir $k$ .

- yerden tasarruf sağlayan ve alan genişleten özellikleri hassas hale getirmek için düzenleyin

Yerden tasarruf:

D_{i j} \in [min_{x \in C_{i}, y \in C_{j}} d (x, y), max_{x \in C_{i}, y \in C_{j}} d (x, y)]

$D_{ij} \in \left[ \min_{x \in C_i, y \in C_j} d(x,y), \max_{x \in C_i, y \in C_j} d(x,y) \right]$ burada

D_{i j}

$D_{ij}$ mesafe

C_{i}

$C_i$ ve

kümeleri arasında

C_{j}

$C_j$ birleştirmek istediğiniz ve

d

$d$ veri noktaları arasındaki mesafedir.

Uzay-genişletici:

D (C_{i} \cup C_{j}, C_{k}) \geq max (D_{i k}, D_{j k}),

$D(C_i \cup C_j, C_k) \geq \max(D_{ik}, D_{jk}),$ yani birleştirerek

C_{i}

$C_i$ ve

C_{j}

$C_j$ algoritması daha uzakta küme itecektir

C_{k}

$C_k$ .

— mik
kaynak

Hiyerarşik yapıya sahip birkaç veri örneği verebilir misiniz? Finansal piyasa örneğini takip etmedi.

— GeorgeOfTheRF

Elbette. bakınız arxiv.org/pdf/cond-mat/9802256.pdf veya basitçe (gürültülü) hiyerarşik korelasyon blok yapısına sahip bir korelasyon matrisini gösteren arxiv.org/pdf/1506.00976.pdf dosyasındaki Şekil 7 : ana blokları görebilirsiniz daha fazla bloğa bölünmüş diyagonal, her biri daha da fazla bloğa bölünmüştür. Kabaca bölgelerdeki (Avrupa, ABD, Asya eski Japonya, Japonya, Japonya) bir alt bölüme karşılık gelir, daha sonra her bölge varlık kalitesine (hurdaya göre yüksek kalite diyelim) bölünür ve daha sonra büyük sanayi sektörlerine (perakende, sanayi, medya), daha fazla alt (havacılık, oto ...)

— mic

3

+1. Ancak,

should use hierarchical clustering when underlying data has a hierarchical structure... and you want to recover the hierarchy

mutlaka değil. Çoğu durumda, aksine. HC hiyerarşisi , verilerin yapısından ziyade algo'nun bir öyküsüdür . Yine de, bu soru nihayetinde felsefi / mantıklı, o kadar istatistiksel değil.

— 15:40, ttnphns

Ward is not space-conserving, i.e. at each merging step it will distort the metric space. Bu konuda daha fazla yazabilir misiniz? Bu çok açık değil.

— ttnphns

Ward is space-dilating, whereas Single Linkage is space-conserving like k-means. Tek bağlantı için uzay-sözleşme demek istediniz mi?

— ttnphns

13

Ölçeklenebilirlik

burada açık kazanan demektir. çok daha iyi olduğunu (birkaç durumda genellikle, her iki yüzünden, hiyerarşik kümelenme) ölçeklenebilirlik ve ve (ne yazık ki küçük, ile büyüme eğilimi gösterdiği , böylece yapardeğil $k$ $O(n\cdot k\cdot d\cdot i)$ $O(n^3 d)$ $O(n^2 d)$ $k$ $i$ $d$ $i$ $n$ $O(n)$ genellikle tutun). Ayrıca, bellek tüketimi ikinci dereceden farklı olarak doğrusaldır (genellikle doğrusal özel durumlar vardır).

Esneklik

araçların uygulanabilirliği son derece sınırlıdır. Temelde Öklid mesafeleri ile sınırlıdır (çekirdek uzaylarındaki Öklid ve Bregman sapmaları dahil olmakla birlikte, bunlar oldukça egzotiktir ve kimse onları aracıyla kullanmaz). Daha da kötüsü, sadece sayısal veriler üzerinde çalışır (aslında sürekli ve yoğun olması gerekir ki araçlarıiçin iyi bir seçimdir). $k$ $k$ $k$ $k$

Hiyerarşik kümeleme burada açık kazanır. Bir mesafe bile gerektirmez - sadece yüksek değerleri düşük değerlere tercih ederek benzerlik fonksiyonları da dahil olmak üzere herhangi bir önlem kullanılabilir. Kategorik veriler? sadece Jaccard kullanın. Teller? Levenshtein mesafesini deneyin. Zaman serisi? Elbette. Karışık tip veriler? Gower mesafesi. Hiyerarşik kümelemeyi kullanabileceğiniz, ancak araçlarını kullanamayacağınız milyonlarca veri kümesi vardır . $k$

model

Burada kazanan yok. yüksek puan anlamına gelir çünkü büyük bir veri azaltımı sağlar. Centroidlerin anlaşılması ve kullanımı kolaydır. Hiyerarşik kümeleme ise bir dendrogram üretir. Bir dendrogram, veri kümenizi anlamada da çok yararlı olabilir. $k$

— QUIT Vardır - Anony-Mousse
kaynak

Hiyerarşik k, kümeler 1) küresel olmayan 2) farklı yarıçapa sahip 3) farklı yoğunluğa sahip olduğunda anlamına gelir mi?

— GeorgeOfTheRF

2

Her ikisi de çalışabilir ve ikisi de başarısız olabilir. Bu yüzden dendrogram gibi şeyler faydalıdır. Kümelenme sonucunun asla "doğru" olduğuna asla güvenmeyin.

— ÇIKIŞ - Anony-Mousse

Hiyerarşik kümeleme, açgözlü yaklaşıma dayandığı için yerel olarak optimize kümeler verebilir, ancak K, küresel olarak optimize edilmiş kümeler sağlar. Ayrıca, hiyerarşik kümelemenin açıklamasının iş adamları için K araçlarına kıyasla nispeten kolay olduğunu deneyimledim.

— Arpit Sisodia

7

Diğer cevaplara, bir anlamda, belirli hiyerarşik kümeleme yöntemlerini nasıl tercih edeceğiniz konusunda güçlü bir teorik neden olduğunu biraz eklemek istedim.

Küme analizinde yaygın bir varsayım, verinin, erişemediğimiz temel olasılık yoğunluğundan örneklendiğidir . Ama varsayalım, ona erişebildik. Nasıl tanımlarsınız kümeleri arasında ? $f$ $f$

Çok doğal ve sezgisel bir yaklaşım, kümelerinin yüksek yoğunluklu bölgeler olduğunu söylemek . Örneğin, aşağıdaki iki tepe yoğunluğunu düşünün: $f$

Grafik boyunca bir çizgi çizerek bir grup küme indükleriz. Örneğin, bir çizgi , gösterilen iki kümeyi elde ederiz. Ancak, çizgi , tek bir küme elde ederiz. $\lambda_1$ $\lambda_3$

Bunu daha kesin hale getirmek için, keyfi bir olduğunu varsayın . düzeyindeki kümeleri nelerdir ? Bunlar, süper düzey kümesinin bağlı bileşenidir . $\lambda > 0$ $f$ $\lambda$ $\{x : f(x) \geq \lambda \}$

Şimdi yerine keyfi toplama biz düşünebilirsiniz tüm "doğru" kümelerin kümesi öyle ki, herhangi superlevel setinin bağlı tüm bileşenleri olan . Anahtar, bu küme koleksiyonunun hiyerarşik bir yapıya sahip olmasıdır. $\lambda$ $\lambda$ $f$ $f$

Bunu daha açık bir şekilde ifade edeyim. Varsayalım desteklenir . Şimdi izin arasında bağlı bir bileşeni ve bağlantılı bir bileşeni . Diğer bir deyişle, düzeyinde bir küme ve seviyesinde bir küme . O zaman eğer $f$ $\mathcal X$ $C_1$ $\{ x : f(x) \geq \lambda_1 \}$ $C_2$ $\{ x : f(x) \geq \lambda_2 \}$ $C_1$ $\lambda_1$ $C_2$ $\lambda_2$ $\lambda_2 < \lambda_1$ , then either $C_1 \subset C_2$ , or $C_1 \cap C_2 = \emptyset$ . This nesting relationship holds for any pair of clusters in our collection, so what we have is in fact a hierarchy of clusters. We call this the cluster tree.

So now I have some data sampled from a density. Can I cluster this data in a way that recovers the cluster tree? In particular, we'd like a method to be consistent in the sense that as we gather more and more data, our empirical estimate of the cluster tree grows closer and closer to the true cluster tree.

Hartigan was the first to ask such questions, and in doing so he defined precisely what it would mean for a hierarchical clustering method to consistently estimate the cluster tree. His definition was as follows: Let $A$ and $B$ be true disjoint clusters of $f$ as defined above -- that is, they are connected components of some superlevel sets. Now draw a set of $n$ samples iid from $f$ , and call this set $X_n$ . We apply a hierarchical clustering method to the data $X_n$ , and we get back a collection of empirical clusters. Let $A_n$ be the smallesttüm içeren ampirik küme $A \cap X_n$ , and let $B_n$ be the smallest containing all of $B \cap X_n$ . Then our clustering method is said to be Hartigan consistent if $\Pr(A_n \cap B_n) = \emptyset \to 1$ as $n \to \infty$ for any pair of disjoint clusters $A$ and $B$ .

Essentially, Hartigan consistency says that our clustering method should adequately separate regions of high density. Hartigan investigated whether single linkage clustering might be consistent, and found that it is not consistent in dimensions > 1. The problem of finding a general, consistent method for estimating the cluster tree was open until just a few years ago, when Chaudhuri and Dasgupta introduced robust single linkage, which is provably consistent. I'd suggest reading about their method, as it is quite elegant, in my opinion.

So, to address your questions, there is a sense in which hierarchical cluster is the "right" thing to do when attempting to recover the structure of a density. However, note the scare-quotes around "right"... Ultimately density-based clustering methods tend to perform poorly in high dimensions due to the curse of dimensionality, and so even though a definition of clustering based on clusters being regions of high probability is quite clean and intuitive, it often is ignored in favor of methods which perform better in practice. That isn't to say robust single linkage isn't practical -- it actually works quite well on problems in lower dimensions.

Lastly, I'll say that Hartigan consistency is in some sense not in accordance with our intuition of convergence. The problem is that Hartigan consistency allows a clustering method to greatly over-segment clusters such that an algorithm may be Hartigan consistent, yet produce clusterings which are very different than the true cluster tree. We have produced work this year on an alternative notion of convergence which addresses these issues. The work appeared in "Beyond Hartigan Consistency: Merge distortion metric for hierarchical clustering" in COLT 2015.

— jme
kaynak

This is an interesting way of thinking about hierarchical clustering. I find it strongly reminiscent of clustering by nonparametric density estimation (pdf), which is implemented in R in the pdfCluster package. (I discuss it here.)

— gung - Reinstate Monica

HDBSCAN* uses a similar approach.

— Has QUIT--Anony-Mousse

3

An additional practical advantage in hierarchical clustering is the possibility of visualising results using dendrogram. If you don't know in advance what number of clusters you're looking for (as is often the case...), you can the dendrogram plot can help you choose $k$ with no need to create separate clusterings. Dedrogram can also give a great insight into data structure, help identify outliers etc. Hierarchical clustering is also deterministic, whereas k-means with random initialization can give you different results when run several times on the same data. In k-means, you also can choose different methods for updating cluster means (although the Hartigan-Wong approach is by far the most common), which is no issue with hierarchical method.

EDIT thanks to ttnphns: One feature that hierarchical clustering shares with many other algorithms is the need to choose a distance measure. This is often highly dependent on the particular application and goals. This might be seen as an additional complication (another parameter to select...), but also as an asset - more possibilities. On the contrary, classical K-means algorithm specifically uses Euclidean distance.

— Jacek Podlewski
kaynak

3

I suppose "problem" in your last paragraph would be seen positively as an asset. K-means, however, is based implicitly on euclidean distance only.

— ttnphns

Many possible choices can be a problem as well as an asset, indeed :) Thanks for the comment on k-means, I'll improve that paragraph.

— Jacek Podlewski

@ttnphns Actually, "

k

$k$ -means " can be used with any Bregman divergences jmlr.org/papers/volume6/banerjee05b/banerjee05b.pdf ; I mean this is the case when considering that

k

$k$ -means is what results when considering the limiting case of Gaussian mixture models (from soft to hard), then by replacing Gaussian by another member of the exponential family, you replace the Euclidean distance by another Bregman divergence associated with the member of the family you picked. You end up with a similar algorithm scheme that aims to find a maximum likelihood with an expectation-maximization.

— mic

I believe the original question was made with regard to "classical' K-means and not a slightest intention to delve into Bregman divergences. Nice remark though, I'll check out this paper more thoroughly for sure.

— Jacek Podlewski

@mic nobody uses Bregman divergences beyond variations of Euclidean distance... it is a tiny tiny class only. But people would like to use e.g. Manhattan distance, Gower etc. which are not Bregman divergences for all I know.

— Has QUIT--Anony-Mousse