Kümelemelerin karşılaştırılması: Rand Endeksi ve Bilginin Değişimi

Herkes arasındaki fark arkasında herhangi bir fikir veya sezgi vardı acaba Bilgi Değişimi ve Rand Index kümelenmemeler karşılaştırmak için.

Marina Melia'nın (Çok Değişkenli Analiz Dergisi, 2007) " Kümelemeleri Karşılaştırma - Bilgiye Dayalı Bir Mesafe " adlı makalesini okudum , ancak tanımlardaki farklılığı fark etmekten başka, bilginin varyasyonunun ne olduğunu anlamıyorum. rand endeksinin yakalayamadığını tespit eder.

machine-learning clustering metric

— Amelio Vazquez-Reina
kaynak

İki yöntem arasındaki fark incedir. Bunu düşünmenin en iyi yolu, birleştirme işlemi tarafından tanımlanan kafes kümelenmeleri üzerinde düşünmektir. Her iki önlem de , kümelemede bir fonksiyonu tanımlanarak ve daha sonra iki kümeleme arasındaki mesafeyi formülle tanımlayarak yeniden oluşturulabilir: $f$

burada iki kümenin birleşmesidir.

d (C, C^{'}) = f (C) + f (C^{'}) - 2 f (C \land C^{'})

$d(C, C') = f(C) + f(C') - 2f(C \wedge C')$

C \land C^{'}

$C \wedge C'$

Şimdi let ve let . Ayar rand bir endeks vermektedir ve ayar VI elde edilir. $C = \{ C_1, C_2, \ldots, C_k\}$ $n_i = |C_i|$ $f(C) = \sum n_i^2$ $f(C) = \sum n_i \log n_i$

— Suresh Venkatasubramanian
kaynak

Sağol Suresh! Bu formüllerdeki farkın (ve nasıl) rand endeksinin ve bilgi çeşitliliğinin neden kümelenmeler arasındaki tutarlılığı (kümelenmelerden birinin diğerinin bir altkümesi olduğunu) farklılaştırdığını açıklayıp açıklamadığını biliyor musunuz? (micansansanswer’e göre)

— Amelio Vazquez-Reina,

Mikanların işaret ettiği gibi, Rand Endeksinin ikinci dereceden bir davranışı vardır, bu yüzden çevreleme değişikliklerine, entropi fonksiyonundan daha hassastır;

— Suresh Venkatasubramanian

Maalesef, sınırlandırmanın kuadratik terimleri kümelenmeler arasındaki diğer uyuşmazlık türlerinden daha fazla nasıl etkilediğini hala göremiyorum. Bu konuda biraz daha detay verir misiniz?

— Amelio Vazquez-Reina

@ user023472 Merhaba user023472. Bulgularınla ilgileniyorum, bu soruyu bir süre önce sormuştun. İki yöntem arasındaki farkın gerçekte ne anlama geldiğini öğrendiniz mi? Teşekkürler.

— Creatron

Kanımca çok büyük farklılıklar var. Rand endeksi, üzerinde çalıştığı kümelenmelerin ayrıntı derecesinden çok etkilenir. Bundan sonra Rand endeksinin düzeltilmiş bir şekli olan Mirkin mesafesini kullanacağım (görmek kolay, fakat örneğin Meila). Ayrıca, Meila'nın bazı makalelerinde de belirtilen bölme / birleştirme mesafesini kullanacağım (feragatname: bölme / birleştirme mesafesi bana göre önerildi). Yüz elementten oluşan bir evren varsayalım. Tüm öğeleri içeren tek bir kümeyle kümelemeyi göstermek için Top, tüm düğümlerin ayrı tekil kümelerde bulunduğu kümelemeyi belirtmek için Alt, kümelemeyi belirtmek için Sol {{1,2, .. 10}, {11, 12..20}, {21,22..30}, ..., {91,92, .. 100}} ve {{1,11, .. 91}, {2 kümelemesini belirtme hakkı. 12, .. 92}, {3,13, .. 93}, ..., {10,20, .. 100}}.

Aklıma göre, Alt ve Üst tutarlı (iç içe geçme) kümelerdir, oysa Sol ve Sağ maksimum çelişkili kümelerdir. Bu iki ikili karşılaştırma için söz konusu metriklere olan mesafeler aşağıdaki gibidir:

               Top-Bottom     Left-Right 

Mirkin            9900          1800
VI                4.605         4.605
Split/join        99            180

Mirkin / Rand'ın tutarlı bir şekilde En Üst Alttaki çifti, maksimum derecede birbiriyle çelişen Sol-Sağ çiftinden çok daha uzakta gördüğü sonucuna varır. Bu, noktayı açıklamak için aşırı bir örnektir, ancak Mirkin / Rand genel olarak üzerinde çalıştığı kümelenmelerin ayrıntı derecesinden çok etkilenir. Bunun altında yatan neden, bu düğüm ve küme boyutları arasındaki , düğüm çiftlerinin sayılmasının yer aldığı gerçeğiyle açıklanan ikinci dereceden bir ilişkidir . Aslında, Mirkin uzaklığı kümelemelerin neden olduğu tam grafik birimlerinin kenar kümeleri arasındaki bir Hamming mesafesidir (bence sorunuzun cevabı budur).

Bilgi Değişimi ve Bölünme / Birleştirme arasındaki farklara ilişkin olarak, birincisi Meila'nın gösterdiği gibi belirli çatışma durumlarına karşı daha hassastır. Diğer bir deyişle, Split / Join, yalnızca her küme için en iyi eşleşmeyi dikkate alır ve bu kümenin kalan kısmında oluşabilecek parçalanmayı dikkate almaz, oysa Bilgi Değişimi bunu alır. Bununla birlikte, Bölme / Birleştirme, bir kümeyi diğerinden elde etmek için taşınması gereken düğümlerin sayısı olarak kolayca yorumlanabilir ve bu anlamda menzilinin daha kolay anlaşılması; pratikte parçalanma sorunu da bu kadar yaygın olmayabilir.

Bu metriklerin her biri, iki kümenin her biri ile en büyük ortak alt kümelemesine olan mesafeler gibi iki mesafenin toplamı olarak oluşturulabilir. Sadece kendi parçalarından ziyade bu ayrı parçalarla çalışmanın genellikle yararlı olduğunu düşünüyorum. Yukarıdaki tablo daha sonra olur:

               Top-Bottom     Left-Right 

Mirkin          0,9900          900,900
VI              0,4.605       2.303,2.303
Split/join      0,99             90,90

Üst ve Alt arasındaki varsayım ilişkisi derhal netleşir. İki kümelenmenin tutarlı olup olmadığını bilmek (örneğin, biri (neredeyse) diğerinin bir altkümesidir), yakın olup olmadıkları sorusunun bir rahatlaması olarak bilmek yararlıdır . Bir kümeleme, bir altın standarttan oldukça uzak olabilir, ancak yine de tutarlı veya neredeyse tutarlı olabilir. Böyle bir durumda kümelenmeyi bu altın standarda göre kötü olarak değerlendirmek için hiçbir sebep olmayabilir. Tabii ki, önemsiz kümelenmeler Üst ve Alt herhangi bir kümelenmeyle tutarlı olacaktır , bu nedenle dikkate alınmalıdır.

Son olarak, Mirkin, Bilgi Değişimi ve Bölünmüş / Katıl gibi metriklerin kümelemeleri karşılaştırmanın doğal araçları olduğuna inanıyorum. Çoğu uygulama için, istatistiksel bağımsızlığı birleştirmeye çalışan ve şans için doğru olan yöntemler açıklığa kavuşturmaktan ziyade fazlasıyla tartışılır ve gizlenir.

İkinci örnek Aşağıdaki kümeleme çiftlerini göz önünde bulundurun: C1 = {{1, 2, 3, 4, 5, 6, 7, 8}, {9, 10, 11, 12, 13, 14, 15, 16}} C2 ile = {{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, {11, 12, 13, 14, 15, 16}}

ve C3 = {{1, 2, 3, 4}, {5, 6, 7, 8, 9, 10}, {11, 12, 13, 14, 15, 16}} {{1, 2, 3 ile , 4}, {5, 6, 7, 8, 9, 10, 11, 12}, {13, 14, 15, 16}}

İşte C2 oluşturulabilir C1 düğümleri 9 ve 10 ve hareketli C3 oluşturulabilir C3 düğümleri 11 ve 12 her ikisi de değişiklikler taşıyarak katılan kümelerin boyutları farklı olması haricinde ( "iki düğüm hareket") özdeş olan . Bu iki örnek için kümeleme metrikleri tablosu şudur:

            C1-C2         C3-C4

Mirkin       56            40 
VI            0.594         0.520
Split/Join    4             4

Mirkin / Rand ve Bilgi Değişiminin küme boyutlarından (ve Mirkin daha büyük ölçüde etkilendiği; bu durum küme boyutları farklılaşırken daha belirgin olacaktır), Bölünme / Birleştirme mesafesi ise (değeri 4'tür) düğümleri bir kümeden diğerine her zaman en büyük ortak alt kümeleme yoluyla "hareket ettirdikçe"). Bu, koşullara bağlı olarak istenen bir özellik olabilir. Split / Join'in basit yorumlanması (taşınacak düğüm sayısı) ve küme boyutunun bağımsızlığı fark edilmeye değer. Mirkin ve Bilgi Değişimi Arasında İkincisi Çok Tercih Edilir.

— micans
kaynak

Teşekkürler Micans, bu çok anlayışlı. İkinci masayı anladığımdan emin değilim. Tablodaki her giriş için neden virgülle ayrılmış iki sayı var? Ayrıca, bu argümanın @ Suresh ile ne kadar ilgili olduğunu biliyor musunuz?

— Amelio Vazquez-Reina,

A ve B kümelemeler ise, d (A, B), d (A, B) = d (A, X) + d (B, X) olarak bölünebilir; her ikisi de. Suresh'in notasyonunda şu d (A, B) = f (A) + f (B) -2f (X) değerine sahibiz. Bu, f (A) + f (X) -2f (X) + f (B) + f (X) -2f (X) = d (A, X) + d (B, X) olarak yeniden yazılabilir. Yukarıda iki (d, A, X) ve d (B, X) bileşenlerini virgülle ayrılmış olarak yazdım. İkisi arasındaki en büyük fark Mirkin / Rand'ın ikinci dereceden karakteristik özellikleridir. Üst / Alt ve Sol / Sağ örneklerine bakarsanız, Üst-Alt mesafesi çok büyüktür; bu tamamen Top'un büyüklüğünden kaynaklanıyor.

— mikan