Benim gibi istatistikçi olmayanlar için, VI
Marina Melia'nın " Kümelenmeleri karşılaştırmak - bilgiye dayalı bir mesafe " tarafından ilgili makaleyi okuduktan sonra bile metrik (bilgi değişimi) fikrini yakalamak çok zordur (Journal of Çok Değişkenli Analiz, 2007). Aslında, kümelenme şartlarının çoğuna aşina değilim.
Aşağıda bir MWE ve kullanılan farklı metriklerde çıktının ne anlama geldiğini bilmek istiyorum. Ben R ve aynı kimlik sırayla bu iki kümeleri var:
> dput(a)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L,
4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L,
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L,
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L,
4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 4L, 4L, 4L,
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L,
4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")
> dput(b)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L,
4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L,
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L,
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L,
3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 3L, 4L, 4L, 4L, 4L,
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L,
4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")
Şimdi VI
, diğer metriklere / endekslere ve literatürdeki görünümlerinin kronolojik sırasına göre karşılaştırmalar yapıyor .
library(igraph)
# Normalized Mutual Information (NMI) measure 2005:
compare(a, b, method = c("nmi"))
[1] 0.8673525
# Variation of Information (VI) metric 2003:
compare(a, b, method = c("vi"))
[1] 0.2451685
# Jaccard Index 2002:
clusteval::cluster_similarity(a, b, similarity = c("jaccard"), method = "independence")
[1] 0.8800522
# van Dongen S metric 2000:
compare(a, b, method = c("split.join"))
[1] 8
# Adjusted Rand Index 1985:
compare(a, b, method = c("adjusted.rand"))
[1] 0.8750403
# Rand Index 1971:
compare(a, b, method = c("rand"))
[1] 0.9374788
Gördüğünüz gibi, VI
değer diğerlerinden farklıydı.
- Bu değer ne anlatıyor (ve aşağıdaki şekil ile nasıl ilişkilidir)?
- Bu değeri düşük veya yüksek olarak değerlendirmenin yönergeleri nelerdir?
- Tanımlanmış herhangi bir yönerge var mı?
Belki bu alandaki uzmanlar bu tür sonuçları bildirmeye çalışırken benim gibi laymenler için bazı mantıklı açıklamalar sağlayabilirler. Birinin diğer metrikler için de yönergeler sağlayıp sağlamayacağını gerçekten takdir edeceğim (değeri ne zaman büyük veya küçük olduğunu düşünürsek, yani iki küme arasındaki benzerlikle ilgili olarak).
Burada ve burada ilgili CV konularını okudum , ancak yine de arkadaki sezgiyi kavrayamadım VI
. Birisi bunu açık İngilizce olarak açıklayabilir mi?
Aşağıdaki şekil yukarıda bahsedilen makaleden şekil 2'dir VI
.