Küme doğrulaması için bilgi (VI) metriğinin varyasyonunun ardındaki sezgi nedir?


11

Benim gibi istatistikçi olmayanlar için, VIMarina Melia'nın " Kümelenmeleri karşılaştırmak - bilgiye dayalı bir mesafe " tarafından ilgili makaleyi okuduktan sonra bile metrik (bilgi değişimi) fikrini yakalamak çok zordur (Journal of Çok Değişkenli Analiz, 2007). Aslında, kümelenme şartlarının çoğuna aşina değilim.

Aşağıda bir MWE ve kullanılan farklı metriklerde çıktının ne anlama geldiğini bilmek istiyorum. Ben R ve aynı kimlik sırayla bu iki kümeleri var:

> dput(a)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L, 
4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L, 
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")
> dput(b)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L, 
4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L, 
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L, 
3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 3L, 4L, 4L, 4L, 4L, 
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")

Şimdi VI, diğer metriklere / endekslere ve literatürdeki görünümlerinin kronolojik sırasına göre karşılaştırmalar yapıyor .

library(igraph)
  # Normalized Mutual Information (NMI) measure 2005:
compare(a, b, method = c("nmi")) 
[1] 0.8673525
  # Variation of Information (VI) metric 2003:
compare(a, b, method = c("vi")) 
[1] 0.2451685
  # Jaccard Index 2002:
clusteval::cluster_similarity(a, b, similarity = c("jaccard"), method = "independence") 
[1] 0.8800522
  # van Dongen S metric 2000:
compare(a, b, method = c("split.join")) 
[1] 8
  # Adjusted Rand Index 1985:
compare(a, b, method = c("adjusted.rand")) 
[1] 0.8750403
  # Rand Index 1971:
compare(a, b, method = c("rand")) 
[1] 0.9374788

Gördüğünüz gibi, VIdeğer diğerlerinden farklıydı.

  • Bu değer ne anlatıyor (ve aşağıdaki şekil ile nasıl ilişkilidir)?
  • Bu değeri düşük veya yüksek olarak değerlendirmenin yönergeleri nelerdir?
  • Tanımlanmış herhangi bir yönerge var mı?

Belki bu alandaki uzmanlar bu tür sonuçları bildirmeye çalışırken benim gibi laymenler için bazı mantıklı açıklamalar sağlayabilirler. Birinin diğer metrikler için de yönergeler sağlayıp sağlamayacağını gerçekten takdir edeceğim (değeri ne zaman büyük veya küçük olduğunu düşünürsek, yani iki küme arasındaki benzerlikle ilgili olarak).

Burada ve burada ilgili CV konularını okudum , ancak yine de arkadaki sezgiyi kavrayamadım VI. Birisi bunu açık İngilizce olarak açıklayabilir mi?

Aşağıdaki şekil yukarıda bahsedilen makaleden şekil 2'dir VI.

resim açıklamasını buraya girin


2
Tüm bu benzerlikler ve metrikler (iki tür arasındaki farkı not edin), iki bölüm arasındaki en büyük ortak alt kümelenmeyle ilişkili parçalanma miktarını bir şekilde veya başka bir şekilde ölçer. Hepsi karışıklık matrisi olarak bilinen şeyi kullanırlar. VI için kesin formül dikkate alındığında, bu parçalanmanın ölçüldüğü anlaşılabilir. Meila yayınlarından birinde formüle bakmayı ve hepsinin farklı ölçekleri olduğu için tüm bu mesafelerin normalleştirilmiş versiyonlarını okumayı öneririm. Bu en önemli nokta olabilir.
mikans

VI'ın yorumuyla da uğraşıyordum ve bu makalenin çok faydalı olduğunu gördüm !
Pizza

Yanıtlar:


1

Tedbirlerin farklı yorumları olabileceğini fark etmelisiniz.

Arsadan bakıldığında, düşük bir VI iyidir.

1 - 0.2451685 = 0.7548315

diğer önlemlerle çok daha uyumludur.

Ancak, bu önlemlerin çoğunun farklı bir şey ölçtüğünü unutmayın .

Bir tedbirin 0,8 olması, diğerinin de 0,8 olması gerektiğini varsaymak için hiçbir neden yoktur.


Bence her birinin ölçtüğü farklı şeyi açıklayabilirseniz OP bunu takdir edecektir.
gung - Monica'yı eski

Her birini açıklayacak kadar iyi tanımıyorum. Benzer bir ölçeğe / birime sahip olmadığı açıktır. Tıpkı Volt ve ayakların karşılaştırılabilir olmadığı gibi.
ÇIKIŞ - Anony-Mousse
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.