Bir küme algoritmasının Rand Endeksi'ni nasıl hesaplayacağımı anlamaya çalışıyorum, ancak doğru ve yanlış negatifleri nasıl hesaplayacağım noktasında sıkıştım.
Şu anda, Bilgi Edinme Anına Giriş kitabından bir örnek kullanıyorum (Manning, Raghavan ve Schütze, 2009). 359 Sayfasında Rand endeksinin nasıl hesaplanacağı hakkında konuşuyorlar. Bu örnek için üç küme kullanırlar ve kümeler aşağıdaki nesneleri içerir.
- aaaaab
- abbbbc
- aaccc
Nesneyi değiştiriyorum (orjinal işaretler harflere, ancak fikir ve sayım aynı kalıyor). Ne hakkında konuştuklarını görmek için kitaptan tam kelimeleri vereceğim:
Önce TP + FP'yi hesaplıyoruz. Üç kümede sırasıyla 6, 6 ve 5 nokta bulunur, bu nedenle aynı kümedeki toplam "pozitif" veya belge çifti sayısı:
TP + FP = + + = 15 + 15+ 10 = 40
Bunlardan küme 1'deki a çiftleri, küme 2'deki b çiftleri, küme 3'teki c çiftleri ve küme 3'teki bir çift gerçek pozitiflerdir:
TP = + + {3 \ 2'yi seçin} + {2 \ 2'yi seçin} = 10 + 6 + 3 + 1 = 20
Böylece FP = 40-20 = 20.
Buraya kadar hesaplamalar açıktır ve başka örnekler alırsam aynı sonuçları alırım, ancak yanlış negatif ve gerçek negatif hesaplamak istediğimde Manning ve ark. aşağıdakileri belirtin:
FN ve TN benzer şekilde hesaplanır ve aşağıdaki beklenmedik durum tablosu ile sonuçlanır:
Acil durum tablosu aşağıdaki gibidir:
+--------+--------+
| TP: 20 | FN: 24 |
+--------+--------+
| FP: 20 | TN: 72 |
+--------+--------+
Cümle: "FN ve TN benzer şekilde hesaplanır" benim için net değildir ve TN ve FN'yi hesaplamak için hangi sayılara ihtiyacım olduğunu anlamıyorum. Aşağıdakileri yaparak tablonun sağ tarafını hesaplayabilirim:
TP + FP + FN + TN = = = 136
Kaynak: http://en.wikipedia.org/wiki/Rand_index
Bu nedenle, FN + TN = 136 - TP + FP = 136 - 40 = 96, ancak bu, değişkenlerin ayrı ayrı nasıl hesaplanacağını anlamamda gerçekten yardımcı olmuyor. Özellikle yazarlar “FN ve TN benzer şekilde hesaplanır” derken. Nasıl olduğunu göremiyorum. Ayrıca diğer örneklere baktığımda, her bir çifte bakarak beklenmedik durum tablosunun her hücresini hesaplıyorlar.
Örneğin: http://www.otlet-institute.org/wikics/Clustering_Problems.html#toc-Subsection-4.1
Manning ve arkadaşlarının (2009) örneğine dayanan ilk sorum, sadece TP ve NP'yi biliyorsanız TN ve FN'yi hesaplamak mümkün mü? Ve eğer öyleyse, benzer hesaplama verilen örneğe göre nasıl görünüyor?