Kümeleme - Kleinberg'in İmkansızlık Teoreminin arkasındaki sezgi


17

Kleinberg (2002) tarafından kümelenmenin zorluklarını araştıran bu ilginç analiz hakkında bir blog yazısı yazmayı düşünüyorum . Kleinberg, bir kümeleme işlevi için görünüşte sezgisel görünen üç desideratayı özetlemekte ve daha sonra böyle bir işlevin olmadığını kanıtlamaktadır. Üç ölçütten ikisini doyuran birçok kümeleme algoritması vardır; ancak, hiçbir işlev aynı anda üçünü de tatmin edemez.

Kısaca ve gayri resmi olarak, özetlediği üç desiderata:

  • Ölçek Değişmezliği : Verileri, her şeyin her yöne eşit olarak uzatılması için dönüştürürsek, kümeleme sonucu değişmemelidir.
  • Tutarlılık : Verileri kümeler arasındaki mesafelerin artması ve / veya kümeler içindeki mesafelerin azalması için uzatırsak, kümeleme sonucu değişmemelidir.
  • Zenginlik : Kümeleme işlevi teorik olarak veri noktalarının herhangi bir rasgele bölümlemesini / kümelemesini üretebilmelidir (herhangi iki nokta arasındaki çift mesafeyi bilmediğinde)

Sorular:

(1) Bu üç kriter arasındaki tutarsızlığı gösterebilecek iyi bir sezgi, geometrik resim var mı?

(2) Bu, makalenin teknik detaylarını ifade eder. Sorunun bu bölümünü anlamak için yukarıdaki bağlantıyı okumanız gerekecek.

Bu makalede, teorem 3.1'in ispatını noktalardan takip etmek benim için biraz zor. Ben de şaşırıp: "Let f . Bir kümelenme işlevi olması tatmin Tutarlılık Biz herhangi bir bölüm için iddia ΓRange(f) , pozitif reel sayıların varolduğu a<b çifti böyle (a,b) ise Γ - zorlayarak."

Bu nasıl olabilir görmüyorum ... a>b (yani kümeler arasındaki minimum mesafe kümeler içindeki maksimum mesafeden daha büyük) bir karşı örnek altındaki bölüm değil mi?

counterexample?

Düzenleme: Bu açıkça bir karşı örnek değil, kendimi karıştırıyorum (cevaplara bakın).


Diğer bildiriler:


"Tutarlılık" ile ilgili olarak: bu karakteristik sezgisel olarak ancak kümeler halihazırda iyi ayrık olduğunda arzu edilir. Olmadıklarında, verilerdeki kümelerin sayısı ile ilgili bir sorun vardır - analiz için, denetlenmediğinden, bu bir sorudur. Daha sonra, kümeler arasında yavaş yavaş mesafe ekledikçe (sizin tarafınızdan oluşturuldukları gibi) analizin, kümeleme işlemi sırasında yaptığı ödevleri değiştirmesini beklemek normaldir.
ttnphns

"Zenginlik" konusunda: Üzgünüm, ne anlama geldiğini anlamadım (en azından koyduğunuzda). Kümeleme algoritmaları çoktur, hepsinin belirli bir fantezi gereksinimine uymasını nasıl bekleyebilirsiniz?
ttnphns

Resminize göre: böyle bir deseni tanımak için özel kümeleme yöntemlerine ihtiyaç vardır. Geleneksel / özgün kümelenme yöntemleri, kümelenmelerin atoll halkaları değil az çok küresel küreler olan biyoloji ve sosyolojiden kaynaklanmaktadır. Bu yöntemler resimdeki verilerle başa çıkmayı talep edemez.
ttnphns

Ayrıca ilginizi çekebilir: Estivill-Castro, Vladimir. "Neden bu kadar çok kümeleme algoritması var: bir konum kağıdı." ACM SIGKDD keşif bülteni 4.1 (2002): 65-75.
ÇIKIŞ - Anony-Mousse

Gazeteyi okumadım. Ancak birçok kümeleme algoritmasında bazı mesafe eşikleriniz vardır (örn. DBSCAN, hiyerarşik kümeleme). Mesafelerin ölçeğini ölçeklendirirseniz, eşik değerinizi de buna göre ölçeklendirmeniz gerekir. Bu yüzden onun ölçek-değişmezlik gerekliliğine katılmıyorum. Ben de zenginliğe katılmıyorum. Her bölüm her algoritma için geçerli bir çözüm olmamalıdır. Milyonlarca rastgele bölüm var.
ÇIKIŞ - Anony-Mousse

Yanıtlar:


11

Öyle ya da böyle, her kümeleme algoritması bazı noktaların “yakınlığı” kavramına dayanır. Göreceli olarak açıktır (göreceli (ölçek değişmez) bir kavram veya mutlak (tutarlı) bir yakınlık kavramı kullanabilirsiniz, ancak her ikisini birden kullanamazsınız. .

Önce bunu bir örnekle göstermeye çalışacağım ve sonra bu sezginin Kleinberg Teoremine nasıl uyduğunu söyleyeceğim.

Açıklayıcı bir örnek

Elimizdeki varsayalım iki set ve G 2 arasında 270 puan her böyle düzlemde düzenlenir:S1S2270

270 puanlık iki set

Bu resimlerden hiçbirinde puan göremeyebilirsiniz , ancak bunun nedeni noktaların çoğunun birbirine çok yakın olmasıdır. Yakınlaştırdığımızda daha fazla puan görüyoruz:270

zum ile 1'i ayarla

Muhtemelen spontaneoulsy, her iki veri kümesinde de noktaların üç kümede düzenlendiğini kabul edersiniz. Bununla birlikte, üç kümesinden herhangi birini yakınlaştırırsanız , aşağıdakileri gördüğünüz ortaya çıkıyor:S2

zoom ile set 2

Mutlak bir yakınlık kavramına veya tutarlılığa inanıyorsanız, mikroskop altında ne gördüğünüzden bağımsız olarak, sadece üç kümeden oluştuğunu hala koruyacaksınız . Gerçekten de, arasındaki tek fark, S 1 ve S 2 , her küme içindeki bazı noktaları birbirine artık olmasıdır. Öte yandan, yakınlık göreceli bir kavramı inanırsanız veya ölçek değişmezliği maçında şu iddia eğimli hissedeceksiniz S 2 değil oluşmaktadır 3 ama 3 × 3 = 9 kümeleri. Bu bakış açılarının hiçbiri yanlış değil, ancak şu ya da bu şekilde bir seçim yapmanız gerekiyor.S2S1S2S233×3=9

İzometri değişmezliği olgusu

Yukarıdaki sezgiyi Kleinberg Teoremi ile karşılaştırırsanız, biraz çelişkili olduğunu göreceksiniz. Gerçekten de, Kleinberg'in Teoremi , Eğer zenginliği adında üçüncü özellik hakkında umurumda değil aynı zamanda sürece ölçek değişmezliği ve tutarlılığı elde edin. Ancak, aynı anda ölçek değişmezliği ve tutarlılığı konusunda ısrar ederseniz, zenginlik kaybettiğiniz tek özellik değildir. Ayrıca, daha temel bir özelliği daha kaybedersiniz: izometri-değişmezlik. Bu, feda etmek istemeyeceğim bir özellik. Kleinberg'in gazetesinde görünmediği için bir an üzerinde duracağım.

Kısacası, bir kümeleme algoritması, çıktısı yalnızca noktalarınız arasındaki mesafelere bağlıysa ve noktalarınıza eklediğiniz etiketler gibi bazı ek bilgilere veya noktalarınıza dayattığınız bir siparişe bağlı değilse izometri değişmezdir. Umarım bu çok hafif ve çok doğal bir durum gibi görünür. Kleinberg gazetesinde tartışılan tüm algoritmalar izometri değişmez, ancak olan tek bağlantı algoritması kesicili durdurma koşulu. Kleinberg'in açıklamasına göre, bu algoritma noktaların sözlük şeklinde sıralanmasını kullanır, bu nedenle çıktıları gerçekten onları nasıl etiketlediğinize bağlı olabilir. Örneğin, üç eşit uzaklıkta nokta kümesi için, tek bağlantı algoritmasının 2k2-kümesi durma koşulu, üç noktanızı "kedi", "köpek", "fare" (c <d <m) veya "Tom", "Spike", "Jerry" (J <S <T):

clustering of {cat, dog, mouse} versus {Tom, Spike, Jerry}

Bu doğal olmayan davranış, elbette kesicili durdurma koşulu bir " ( k ) -kümesi durdurma koşulu" ile değiştirilerek kolayca onarılabilir . Fikir basitçe değil eşit uzaklıkta noktaları arasındaki ilişkileri kesme ve biz ulaştık yakında kadar kümeleri birleştirme durdurmak için en fazla k kümeleri. Bu onarılan algoritma çoğu zaman k kümeleri üretmeye devam edecek ve izometri değişmez ve ölçek değişmez olacaktır. Bununla birlikte, yukarıda verilen sezgi ile mutabık kalındığında, artık tutarlı olmayacaktır.k(k) kk

İzometri değişmezliğinin bir ayrıntılı bir açıklaması, geri çağırma Kleinberg bir tanımlayan kümelenme algoritması sonlu seti bir harita olarak bu, her metrik için atar S bir bölümü S : y : { ölçümler,  S } SSS birizometri i arasında iki ölçüm d ve d ' ile S bir permütasyon i : S S şekilde d ' ( ı ( x ) , ı ( y ) ) = D ( x , y ) Tüm noktaları x ve y de

Γ:{metrics on S}{partitions of S}dΓ(d)
iddSi:SSd(i(x),i(y))=d(x,y)xy . S

Tanım: Bir kümelenme algoritma isimli izometri değişmeyen bu biri aşağıdaki koşulu ise: hiçbir ölçüm için d ve d ' ve herhangi bir izometrinin i , aralarında, nokta ı ( x ) ve i ( y ) aynı kümedeki yalan y ( d ) yalnızca orijinal x ve y noktaları aynı Γ ( d ) kümesinde bulunuyorsa ve sadece .Γddii(x)i(y)Γ(d)xyΓ(d)

Biz algoritmalar kümelenme düşündüğümüzde, sık sık soyut kümesi tanımlamak düzleminde noktalarının somut seti ile veya başka ortam uzayda ve metrik değişen hayal S noktalarını taşıma gibi S etrafında. Aslında, yukarıdaki açıklayıcı örnekte aldığımız bakış açısı budur. Bu bağlamda, izometri değişmezliği, kümeleme algoritmamızın dönüşlere, yansımalara ve çevirilere duyarsız olduğu anlamına gelir.SSS

a set of points in the plane, and two rotations of it

Kleinberg'in Teoreminin bir çeşidi

Yukarıda verilen sezgi, Kleinberg Teoreminin aşağıdaki varyantı tarafından yakalanmaktadır.

Teorem: Aynı anda tutarlı ve ölçek değişmeyen önemsiz izometri-değişmez kümeleme algoritması yoktur.

Burada, önemsiz bir kümeleme algoritması ile, aşağıdaki iki algoritmadan birini kastediyorum:

  1. üzerindeki her metriğe, her kümenin tek bir noktadan oluştuğu ayrık bölüm atayan algoritma ,S

  2. Algoritma her metrik Açık olarak atar o tek küme oluşan götürü bölümü.S

İddia şu ki bu aptal algoritmalar , hem tutarlı hem de ölçek değişmez olan sadece iki izometri değişmez algoritmadır.

İspat: , algoritmamızın Γ çalışacağı sonlu küme olsun . Let d metrik olarak S ayrı noktalarının herhangi çifti (yani, birim uzaklığa sahip olduğu d ( x , y ) = 1 için tüm x Y olarak S ). Olarak Γ izometri değişmez olduğu için, sadece iki olasılık vardır Γ ( d ) : ya Γ ( d ) ayrık bölüm, ya daSΓdSd(x,y)=1xySΓΓ(d)Γ(d)Γ(d)Γ(d)dS1dΓ(d)=Γ(d)ΓΓ(d)dS1Γ(d)=Γ(d). So Γ is also trivial in this case. ∎

Of course, this proof is very close in spirit to Margareta Ackerman’s proof of Kleinberg’s original theorem, discussed in Alex Williams’s answer.


7

This is the intuition I came up with (a snippet from my blog post here).

enter image description here

A consequence of the richness axiom is that we can define two different distance functions, d1 (top left) and d2 (bottom left), that respectively put all the data points into individual clusters and into some other clustering. Then we can define a third distance function d3 (top and bottom right) that simply scales d2 so that the minimum distance between points in d3 space is larger than the maximum distance in d1 space. Then, we arrive at a contradiction, since by consistency the clustering should be the same for the d1d3 transformation, but also the same for the d2d3 transformation.


Do you mean bottom left for d2? One nice thing about your diagram is that it shows how consistency isn't a generally desirable property (or that it's too loosely formulated).
xan

Yes bottom left, edited the answer accordingly. Thanks!
Alex Williams

Before I fully understood your answer, I came up with logic that turns out to be the dual of yours: start with a clustering where all points are in the same cluster. Transform it into any other arrangement by shrinking it into a miniature version of any other arrangement and scaling it up to a full-size version of the other arrangement.
xan
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.