Kanımca çok büyük farklılıklar var. Rand endeksi, üzerinde çalıştığı kümelenmelerin ayrıntı derecesinden çok etkilenir. Bundan sonra Rand endeksinin düzeltilmiş bir şekli olan Mirkin mesafesini kullanacağım (görmek kolay, fakat örneğin Meila). Ayrıca, Meila'nın bazı makalelerinde de belirtilen bölme / birleştirme mesafesini kullanacağım (feragatname: bölme / birleştirme mesafesi bana göre önerildi). Yüz elementten oluşan bir evren varsayalım. Tüm öğeleri içeren tek bir kümeyle kümelemeyi göstermek için Top, tüm düğümlerin ayrı tekil kümelerde bulunduğu kümelemeyi belirtmek için Alt, kümelemeyi belirtmek için Sol {{1,2, .. 10}, {11, 12..20}, {21,22..30}, ..., {91,92, .. 100}} ve {{1,11, .. 91}, {2 kümelemesini belirtme hakkı. 12, .. 92}, {3,13, .. 93}, ..., {10,20, .. 100}}.
Aklıma göre, Alt ve Üst tutarlı (iç içe geçme) kümelerdir, oysa Sol ve Sağ maksimum çelişkili kümelerdir. Bu iki ikili karşılaştırma için söz konusu metriklere olan mesafeler aşağıdaki gibidir:
Top-Bottom Left-Right
Mirkin 9900 1800
VI 4.605 4.605
Split/join 99 180
Mirkin / Rand'ın tutarlı bir şekilde En Üst Alttaki çifti, maksimum derecede birbiriyle çelişen Sol-Sağ çiftinden çok daha uzakta gördüğü sonucuna varır. Bu, noktayı açıklamak için aşırı bir örnektir, ancak Mirkin / Rand genel olarak üzerinde çalıştığı kümelenmelerin ayrıntı derecesinden çok etkilenir. Bunun altında yatan neden, bu düğüm ve küme boyutları arasındaki , düğüm çiftlerinin sayılmasının yer aldığı gerçeğiyle açıklanan ikinci dereceden bir ilişkidir . Aslında, Mirkin uzaklığı kümelemelerin neden olduğu tam grafik birimlerinin kenar kümeleri arasındaki bir Hamming mesafesidir (bence sorunuzun cevabı budur).
Bilgi Değişimi ve Bölünme / Birleştirme arasındaki farklara ilişkin olarak, birincisi Meila'nın gösterdiği gibi belirli çatışma durumlarına karşı daha hassastır. Diğer bir deyişle, Split / Join, yalnızca her küme için en iyi eşleşmeyi dikkate alır ve bu kümenin kalan kısmında oluşabilecek parçalanmayı dikkate almaz, oysa Bilgi Değişimi bunu alır. Bununla birlikte, Bölme / Birleştirme, bir kümeyi diğerinden elde etmek için taşınması gereken düğümlerin sayısı olarak kolayca yorumlanabilir ve bu anlamda menzilinin daha kolay anlaşılması; pratikte parçalanma sorunu da bu kadar yaygın olmayabilir.
Bu metriklerin her biri, iki kümenin her biri ile en büyük ortak alt kümelemesine olan mesafeler gibi iki mesafenin toplamı olarak oluşturulabilir. Sadece kendi parçalarından ziyade bu ayrı parçalarla çalışmanın genellikle yararlı olduğunu düşünüyorum. Yukarıdaki tablo daha sonra olur:
Top-Bottom Left-Right
Mirkin 0,9900 900,900
VI 0,4.605 2.303,2.303
Split/join 0,99 90,90
Üst ve Alt arasındaki varsayım ilişkisi derhal netleşir. İki kümelenmenin tutarlı olup olmadığını bilmek (örneğin, biri (neredeyse) diğerinin bir altkümesidir), yakın olup olmadıkları sorusunun bir rahatlaması olarak bilmek yararlıdır . Bir kümeleme, bir altın standarttan oldukça uzak olabilir, ancak yine de tutarlı veya neredeyse tutarlı olabilir. Böyle bir durumda kümelenmeyi bu altın standarda göre kötü olarak değerlendirmek için hiçbir sebep olmayabilir. Tabii ki, önemsiz kümelenmeler Üst ve Alt herhangi bir kümelenmeyle tutarlı olacaktır , bu nedenle dikkate alınmalıdır.
Son olarak, Mirkin, Bilgi Değişimi ve Bölünmüş / Katıl gibi metriklerin kümelemeleri karşılaştırmanın doğal araçları olduğuna inanıyorum. Çoğu uygulama için, istatistiksel bağımsızlığı birleştirmeye çalışan ve şans için doğru olan yöntemler açıklığa kavuşturmaktan ziyade fazlasıyla tartışılır ve gizlenir.
İkinci örnek
Aşağıdaki kümeleme çiftlerini göz önünde bulundurun:
C1 = {{1, 2, 3, 4, 5, 6, 7, 8}, {9, 10, 11, 12, 13, 14, 15, 16}} C2 ile = {{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, {11, 12, 13, 14, 15, 16}}
ve
C3 = {{1, 2, 3, 4}, {5, 6, 7, 8, 9, 10}, {11, 12, 13, 14, 15, 16}} {{1, 2, 3 ile , 4}, {5, 6, 7, 8, 9, 10, 11, 12}, {13, 14, 15, 16}}
İşte C2 oluşturulabilir C1 düğümleri 9 ve 10 ve hareketli C3 oluşturulabilir C3 düğümleri 11 ve 12 her ikisi de değişiklikler taşıyarak katılan kümelerin boyutları farklı olması haricinde ( "iki düğüm hareket") özdeş olan . Bu iki örnek için kümeleme metrikleri tablosu şudur:
C1-C2 C3-C4
Mirkin 56 40
VI 0.594 0.520
Split/Join 4 4
Mirkin / Rand ve Bilgi Değişiminin küme boyutlarından (ve Mirkin daha büyük ölçüde etkilendiği; bu durum küme boyutları farklılaşırken daha belirgin olacaktır), Bölünme / Birleştirme mesafesi ise (değeri 4'tür) düğümleri bir kümeden diğerine her zaman en büyük ortak alt kümeleme yoluyla "hareket ettirdikçe"). Bu, koşullara bağlı olarak istenen bir özellik olabilir. Split / Join'in basit yorumlanması (taşınacak düğüm sayısı) ve küme boyutunun bağımsızlığı fark edilmeye değer. Mirkin ve Bilgi Değişimi Arasında İkincisi Çok Tercih Edilir.