PR için yalnızca bir değere sahip olduğumda Hassas Geri Çağırma eğrisi nasıl oluşturulur?


12

İçeriğe dayalı görüntü alma sistemi yaptığım veri madenciliği görevim var. 5 hayvandan 20 görüntüm var. Yani toplam 100 görüntü.

Sistemim en alakalı 10 görüntüyü giriş görüntüsüne döndürür. Şimdi sistemimin performansını bir Hassas-Geri Çağırma eğrisi ile değerlendirmem gerekiyor. Ancak, Hassas-Geri Çağırma eğrisi kavramını anlamıyorum. Diyelim ki sistemim bir goril görüntüsü için 10 görüntü döndürüyor, ancak bunlardan sadece 4 tanesi goril. Döndürülen diğer 6 görüntü diğer hayvanlardır. Böylece,

  • hassasiyet 4/10 = 0.4(iade edilen alaka düzeyi ) / (tümü iade edildi)
  • hatırlama 4/20 = 0.2(iade edilen alaka düzeyi ) / (tüm alaka düzeyi )

Bu yüzden sadece bir noktaya sahibim <0.2,0.4>, bir eğri değil. Nasıl bir eğrim var (yani bir nokta kümesi)? Döndürülen görüntü sayısını değiştirmeli miyim (bu benim durumumda 10 olarak düzeltildi)?


2
Çoğu model bir sınıfa ait olma olasılığını atar, bir sınıfa değil - veya sınıflandırıcıdan birini sıkarsınız. Eğri, olasılık kesimi değiştirilerek elde edilir. Sınıflandırıcıyı kullandığınızdan bahsederseniz, muhtemelen daha ayrıntılı yanıtlar alırsınız.
charles

Özellik vektörlerini (renk, doku ve şekil) hesaplar ve her biri için benzerlik puanları elde ederim, toplam benzerlik puanı için toplar, sonra azalanları sıralarım. ilk 10 resim indeksi en alakalı olanlardır. Görüntüler (20 goriller, 20 zürafalar vb) sıralanır beri ben tamamen kavramları sınıflandırıcı / açıklayıcısı vb anlamıyorum beri, kendimi temizlemek yapılan umut grafik indeksinden sınıf indeksi elde edebilirsiniz
jeff

Soruyu iyi okumadığımı fark ettim. İki sınıf probleminiz olduğunu düşündünüz (goril / goril). Benden daha fazla sınıfla, bu yardımcı olabilir: stats.stackexchange.com/questions/2151/…
charles

Yanıtlar:


11

Bir PR eğrisi oluşturmak, bir ROC eğrisi oluşturmaya benzer. Bu tür grafikleri çizmek için test setinin tam bir sıralamasına ihtiyacınız vardır. Bu sıralamayı yapmak için, ikili bir cevaptan ziyade bir karar değeri veren bir sınıflandırıcıya ihtiyacınız vardır . Karar değeri, tüm test örneklerini sıralamak için kullanabileceğimiz bir öngörüye olan güven ölçüsüdür. Örnek olarak, lojistik regresyon ve SVM'nin karar değerleri, sırasıyla ayırma hiper düzlemine bir olasılık ve (imzalı) bir mesafedir.

Karar değerlerini elden çıkarırsanız, söz konusu karar değerleri üzerinde bir dizi eşik tanımlarsınız. Bu eşikler bir sınıflandırıcının farklı ayarlarıdır : örneğin muhafazakarlık seviyesini kontrol edebilirsiniz. Lojistik regresyon için, varsayılan eşik ancak aralığının tamamını geçebilirsiniz . Tipik olarak eşikler, modelinizin test seti için verdiği benzersiz karar değerleri olarak seçilir.( 0 , 1 )f(x)=0.5(0,1)

Her eşik seçiminde, modeliniz farklı tahminler verir (örneğin, farklı sayıda pozitif ve negatif tahmin). Bu nedenle, her bir eşikte farklı hassasiyete sahip bir dizi tuple alırsınız, örneğin bir set tuple . PR eğrisi çiftlerine göre çizilir .( P ı , R' ı )(Ti,Pi,Ri)(Pi,Ri)

Yorumunuzu doğru şekilde anladıysam, hesapladığınız toplam benzerlik puanı karar değeri olarak kullanılabilir.


Bu benim için açık değil, OP'nin hayvan görüntü alma durumuna benzer ayrıntılı bir örnekle çalışabilir misiniz?
MR
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.