İkili veriler için benzerlik katsayıları: Neden Russell ve Rao yerine Jaccard'ı seçelim?


20

Kaynaktan İstatistiksel Bilimler Ansiklopedisi I verilen anlama iki seçenekli (ikili: 1 = mevcut; 0 = yok), herhangi bir iki nesne için bir acil durum tablosu oluşturabilir (değişkenler) özellikleri i ve j, bir numunenin:p

         j
       1   0
      -------
  1  | a | b |
i     -------
  0  | c | d |
      -------
a = number of variables on which both objects i and j are 1
b = number of variables where object i is 1 and j is 0
c = number of variables where object i is 0 and j is 1
d = number of variables where both i and j are 0
a+b+c+d = p, the nubmer of variables.

Bu değerlerden herhangi bir nesne çifti arasındaki benzerlik katsayılarını, özellikle Jaccard katsayısı ve Russell ve Rao katsayısı a

birbir+b+c
birbir+b+c+d=birp.

d

Yanıtlar:


14

Bu tür birçok katsayı vardır (çoğu burada ifade edilir ). Özellikle, bir katsayı matrisi hesapladığınızda, formüllerdeki farklılıkların sonuçları hakkında meditasyon yapmaya çalışın .

Örneğin, 1 ve 2 nolu nesnelerin 3 ve 4 nolu nesnelerle benzer olduğunu düşünün. Ancak 1 ve 2, listedeki özelliklerin çoğuna sahipken 3 ve 4'ün sadece birkaç özelliği vardır. Bu durumda, Russell-Rao (ortak özelliklerin dikkate alınan toplam özellik sayısına oranı) çift 1-2 için yüksek ve 3-4 çift için düşük olacaktır. Ancak Jaccard (oranı niteliklerinin kombine sayıda ko-öznitelikleri iki nesne sahip = ya amacı, özelliği vardır sonra ikisinin de sahip olma olasılığı) iki çift 1-2 ve 3-4 için yüksek olacaktır.

(birbir+b+birbir+c)/2

birbir+bbirbir+c
bc

PS

Sadece bazı veri kümeleri için, her iki özelliğin (d) eşzamanlı olarak bulunmaması herhangi bir bilgi aktarmaması mıdır?

d

Ayrıca, 1+ nominal özniteliğe (dikotom veya politom) dayalı nesneler arasındaki benzerliği hesaplamak isterseniz , bu değişkenlerin her birini kukla ikili değişkenler kümesine yeniden kodlayın. Daha sonra bilgi işlem için tavsiye edilen bir benzerlik ölçüsü olacaktır Zar ( yapay değişkenler 1+ için hesaplanmıştır zaman, Ochiai ve Kulczynski-2 eşdeğerdir).


2
İkiden fazla kategoriye sahip sınıflandırmalar için "dikotom" ile varsayılan benzetme ile çeşitli terimler önerilmiştir. "Polytomous", "dikotom" un iki Yunan kökü "di" ve "chotomous" olarak ayrıldığına dair yanlış bir tahmine dayanan "polikotomo" için dilsel olarak tercih edilir. Latin kökü kullanımıyla hata yapan "çok resimli" bileşikler. Ayrı Latin ve Yunan kökenleri olan kelimeler dilbilimcilerin küçümsemesine rağmen (örneğin "televizyon") Burada "politom" kullanımını tavsiye ediyorum.
Nick Cox

Hatırlattığın için teşekkürler. Aslında ne hakkında konuştuğunu biliyordum ve aceleci olmadığımda kendimi saflaştırmaya çalışıyorum. Ben düzenleyeceğim.
ttnphns

3

Tanimoto katsayısının geleneksel doğruluk (yani Russell-Rao) üzerindeki faydası, bir segmentasyonun bir altın standardıyla karşılaştırılması sırasında görüntü analizinde belirgindir. Şu iki görüntüyü düşünün:

resim açıklamasını buraya girin

İkili 'maskeler' olan bu görüntülerin her birinde, aynı boyutta ancak biraz farklı konumlara yerleştirilmiş iki nesnemiz var ve bu nesnelerin örtüşmelerini değerlendirerek şekil ve konum bakımından ne kadar özdeş olduklarını değerlendirmek istiyoruz. Genellikle bir (örn. Mor maske) bir segmentasyondur (bir bilgisayar algoritması tarafından üretilen), örneğin bu, kalbi tıbbi bir görüntüden bulmak için bir girişim olabilir. Diğeri (örn. Yeşil) altın standarttır (yani uzman bir klinisyen tarafından tanımlandığı gibi kalp). Beyaz rengin olduğu yerde, iki şekil üst üste gelir. Siyah pikseller arka planlıdır.

İki görüntü aynıdır (yani, segmentasyon algoritmasının sonucu ve altın standardı, her iki görüntüde de aynıdır), ancak ikinci görüntüde çok fazla arka plan "dolgusu" (örn. 2. makinenin daha fazla vücut alanını kaplayan daha geniş bir ışına sahip olduğu iki farklı röntgen makinesi, ancak aksi takdirde kalbin boyutu her iki görüntü setinde de aynıdır).

Açıkçası, her iki görüntüdeki segmentasyon ve altın standardı aynı olduğundan, segmentasyon doğruluğunu altın standarda göre değerlendirirsek, metrikimizin her iki deneyde de aynı 'doğruluk' sonucunu vermesini isteriz.

Ancak, Russel-Rao yaklaşımını kullanarak segmentasyonun kalitesini değerlendirmeye çalışırsak, doğru görüntü için yanıltıcı derecede yüksek bir doğruluk elde ederiz (% 100'e yakın), çünkü "arka plan pikselleri olarak doğru bir şekilde tanımlanan arka plan pikselleri" kümelerin ve arka plan piksellerinin toplam doğruluğu ikinci kümede orantısız olarak temsil edilir. Tıbbi segmentasyonda örtüşmesini değerlendirmek istediğimiz nesneler genellikle büyük bir arka planda küçük lekelerdir, bu yüzden bu bizim için çok yararlı değildir. Dahası, bir segmentasyon algoritmasının doğruluğunu diğeriyle karşılaştırmaya çalıştığımızda ve ikisi farklı boyuttaki görüntüler üzerinde değerlendirilirse, bu sorunlara yol açabilir! (veya eşdeğer olarak farklı ölçeklerde).Gömme görüntünün ölçeklendirilmesi / boyutu, bir altın standarda göre bir segmentasyonun değerlendirilmesinde bir fark yaratmamalıdır! .

Buna karşılık, tanimoto katsayısı arka plan piksellerini umursamaz ve onu 'ölçek' ile değişmez hale getirir. Tanimoto katsayısı söz konusu olduğunda, bu iki kümenin benzerliği aynı olacaktır, bu da bir segmentasyon algoritmasının kalitesini değerlendirmek için kullanmamız için çok daha kullanışlı bir benzerlik metriği haline getirecektir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.