Neden Hassasiyet ve Geri Çağırmanın toplamı değerli bir önlem değildir?


12

Niçin iyi yolu nedir Precision+Recall olduğu değil F1 ile kıyaslandığında, diyelim ki, iyi bir tedbir?


Ne anlama geliyor? Nasıl yorumlarsın? Aslında sana ne söylerdi?
Matthew Drury

1
İstediğinizi daha net hale getirmek için "Precision + Recall" ifadesini "Precision and Recall" toplamıyla değiştirerek başlığı değiştirmeniz gerekir.
g3o2

@ g3o2 Burada dilbilgisi mi konuşuyoruz, yoksa daha büyük bir şey mi kaçırıyorum?
matt

Gerçekten değil, sadece başlığı okurken Hassasiyet ve Hatırlama da okunabileceğini belirtmek.
g3o2

Yanıtlar:


18

Precision+Recall

Hassasiyet ve hatırlamanın şu şekilde tanımlandığını hatırlayın:

Precision=True PositivePredicted Positive
Recall=True PositiveActual Positive

True Positive(Predicted Positive+Actual Positive)Predicted Positive×Actual Positive

Bir araya getirmek için geri dönelim ve bir tweak yapmak: çarpın12[01]

12×(True PositivePredicted Positive+True PositiveActual Positive)

Yani, aynı sayıya, ancak farklı paydalara sahip iki miktarımız var ve bunların ortalamasını almak istiyoruz. Biz ne yaptık? Onları ters çevirebiliriz, tersini alabiliriz. Sonra bunları bir araya getirebilirsiniz. Yani onlar "sağ taraf yukarı", yine tersini alırsın.

Bu ters çevirme ve sonra tekrar ters çevirme süreci, "düzenli" bir ortalamayı harmonik bir ortama dönüştürür. Sadece çok hassas ve hatırlama harmonik ortalaması olur ise F1-istatistik. Burada yaptığımız gibi oranlarla uğraşırken standart aritmetik ortalama yerine harmonik ortalama kullanılır.

Sonunda, F1 istatistiği sadece hassasiyet ve hatırlamanın ortalamasıdır ve bunu kullanırsınız çünkü modelin performansını değerlendirmek için birini veya diğerini seçmek istemezsiniz.


2
Cebirsel ortalamadan harmonik ortalamayı nazikçe geliştirdiğiniz için gerçekten çok teşekkürler! ama muhtemelen benimle çok sıkı bir şekilde oturmayan şey, "özellikle yararlı olmayan" dediğin kısımdır. Bu bağlamda, şimdi diğer iki cevap üzerine yorum yaptım. Bir adım daha ileri götürmeniz durumunda .. Örneğin, aynı veri kümesi üzerinde test edilen bir grup sınıflandırıcı arasında en iyi sınıflandırıcıyı seçmek istediğimi düşünün.
matt

@matt, herhangi bir birleşik ölçüm kullanmak model seçiminizi belirli bir noktaya getirecek, ancak ötesine geçmeyecektir. Aynı F1 değerine sahip iki model, Geri Çağırma ve Hassasiyet değerlerinin tamamen tersini gösterebilir. Bu nedenle, F1'in aynı olması için Geri Çağırma ve Hassasiyet arasında seçim yapmanız gerekecektir.
g3o2

4

Kısa cevap: iki farklı paydaya sahip iki yüzdenin toplanmasının belirli bir anlamı olmasını beklemezsiniz. Dolayısıyla, F1, F2 veya F0.5 gibi ortalama bir ölçü alma yaklaşımı. İkincisi, en azından bir yüzde özelliğini korur. Ne anlama geliyor?

Hassasiyet ve Geri Çağırma'nın ayrı önlemler olarak güzelliği, yorum kolaylığı ve modelin iş hedefleriyle kolayca karşı karşıya kalabilmeleridir. Kesinlik , modele göre true positivessınıflandırılan vakaların yüzdesini ölçer positive. Geri çağırmatrue positives , modelin bulduğu yüzdeyi tüm truevakalardan ölçer . Birçok sorun için, Hassas veya Geri Çağırma'yı optimize etmek arasında seçim yapmanız gerekecektir.

Herhangi bir ortalama ölçü yukarıdaki yorumu kaybeder ve en çok tercih ettiğiniz ölçüme kaynar. F1, Geri Çağırma veya Hassasiyeti tercih edeceğinizi bilmediğiniz veya her birine eşit ağırlık eklediğiniz anlamına gelir. Hatırlamayı Hassas'dan daha önemli olarak değerlendirirseniz, ortalama hesaplamada (örneğin F2) ve bunun tersi (örn. F0.5) için daha yüksek bir ağırlık ayırmanız gerekir.


3

İkisini eklemek kötü bir önlemdir. Her şeyi pozitif olarak işaretlerseniz en az 1 puan alırsınız, çünkü bu tanım gereği% 100 geri çağırmadır. Ve bunun üzerine biraz hassas bir çarpma elde edersiniz. F1'de kullanılan geometrik ortalama, çarpıcı olduğu için zayıf bağlantıyı vurgular; iyi bir F1 puanı almak için en azından hem hassasiyet hem de hatırlama ile iyi yapmak zorunda.


Aslında, Hassasiyet ve Geri Çağırma sinirli olmaktan ziyade mantıklı olduğunda gereksiz bulduğum zayıf bağın tam olarak vurgulanmasıdır. Her ikisi de sinirli olmadığında, aralarındaki benzerliği vurgulayan bir metriğin katma değerini gördüğümden veya farklılıklarının boyutuna göre farklı bir şekilde cezalandırdığından emin değilim. Bu kesin özellik kısmen benim asıl sorumu burada motive etti.
matt

Bana fazladan iş gibi geliyor. Hassasiyet kadar hatırlama yüzdesine değer verirseniz, o zaman ölçünüz kullanılacak olanı sanırım. Ama hayal edemiyorum. Aralıkları azaltsanız bile hatırlama muhtemelen baskın olacaktır. Hatırlamayı elmadan elmaya kadar hassas bir şekilde ölçeklendirebilirsiniz, ancak bu yine daha fazla iştir ve yorumu daha az netleştirir.
Ben Ogorek

1
Geri çağırmanın neden baskın olması gerektiğini farz etmemelisiniz (?) Ancak geri çağrıyı elmadan elmaya kadar hassas bir şekilde ölçeklemek burada veya başka bir yerde ilginç bir ilgili tartışma olabilir - doğru yönde bir işaretçi olması güzel olabilir :) ve aksi halde tekrar teşekkürler
matt

3

F1 skoru, ciddi asimetrik olasılıklar durumunda özellikle değerlidir.

Aşağıdaki örneği düşünün: nadir fakat tehlikeli bir hastalığı test ediyoruz. Diyelim ki 1.000.000 kişilik bir şehirde sadece 100 kişi enfekte.

Test A, bu 100 pozitifin tümünü algılar. Bununla birlikte,% 50 yanlış pozitif oranına sahiptir: yanlışlıkla 500.000 kişinin daha hasta olduğunu göstermektedir.

Bu arada, test B enfekte olanın% 10'unu kaçırır, ancak sadece 1.000 yanlış pozitif verir (% 0.1 yanlış pozitif oran)

Skorları hesaplayalım. Test A için hassasiyet etkili bir şekilde 0 olacaktır; hatırlama tam olarak 1 olacaktır. B testi için, hassasiyet yaklaşık 0,01 oldukça küçük olacaktır. Hatırlama 0,9'a eşit olacaktır.

Saflık ve geri çağırma aritmetik ortalamasını toplarsak veya alırsak, bu test A için 1 (0.5) ve test B için 0.91 (0.455) verecektir. Dolayısıyla, test A marjinal olarak daha iyi görünecektir.

Bununla birlikte, pratik bir perspektiften bakarsak, A testi değersizdir: bir kişi pozitif test edilirse, gerçekten hasta olma şansı 50.000'de 1'dir! Test B'nin daha pratik önemi vardır: 1.100 kişiyi hastaneye götürebilir ve yakından gözlemleyebilirsiniz. Bu F1 puanıyla doğru bir şekilde yansıtılır: A testi için 0.0002'ye yakın, B testi için: (0.01 * 0.9) / (0.01 + 0.9) = 0.0098, hala oldukça zayıf, ancak yaklaşık 50 kat daha iyi.

Puan değeri ile pratik önem arasındaki bu maç F1 puanını değerli kılan şeydir.


Teşekkürler. Belki de kendimi davaya yeterince daldırmadım, ancak bu açıklama bir sonucun (olumlu) tespit edilmesinin gerçek bir alandaki “pozitiflere” tahsis edilmesinin pragmatik avantajına dayanmıyor mu? bu her zaman böyle değildir, hedefin bir sonucu tespit etmesi değil mi? bazen sadece bir elma mı yoksa bir çift mi olduğunu bilmek istersiniz ve her iki hata türü de aynı pratik gerçek dünya maliyetine sahiptir.
matt

Her şeyden önce, göremediğim şey, "daha iyi" olma özelliğinin, hassasiyet ve hatırlama arasındaki (mutlak) farkın daha az patolojik olduğu durumlara nasıl ölçeklendiğidir. Belki sezgi doğal olarak oradadır, ama henüz orada değilim ...
matt

1

Genel olarak, geometrik ortalamanın en üst düzeye çıkarılması, değerlerin benzer olduğunu vurgular. Örneğin, iki model alın: İlki (hassasiyet, hatırlama) = (0.8, 0.8) ve ikincisi (hassasiyet, hatırlama) = (0.6, 1.0). Cebirsel ortalama kullanıldığında, her iki model de eşdeğer olacaktır. Geometrik ortalamayı kullanarak, ilk model daha iyidir çünkü hatırlama için hassas işlem yapmaz.


1
Çok teşekkürler. Bununla birlikte, pratikte, örneğin (0.8, 0.8) ve (0.7, 0.9) arasında evrensel olarak uygulanabilir herhangi bir tercih göremiyorum. Belki de (henüz) kendimi alamadığım "hatırlama için Hassas ticaret" den daha derin bir şey ima etmişti. Benim için iki tür hatanın cebirsel olarak ortalaması, benzerliğe herhangi bir önyargı olmaksızın, bunların en basit ortalamasını verir. Örneğin, iki sınıflandırıcıdan hangisinin bana daha az hata verdiğini anlamak için Duyarlılık ve Geri Çağırmanın basit toplamını kullanabilirsiniz.
matt

Bunu uç noktalara götürebiliriz. Diyelim ki (hassas, hatırlama) = (0.6, 0.6) olan bir sisteminiz var. Bu, "evet" dediğinde, zamanın% 60'ı doğru olduğu ve "evet" olaylarının% 60'ını doğru bir şekilde yakaladığı anlamına gelir. Şimdi bunu (0.3, 1) olan bir sistemle karşılaştıralım. Bunun daha iyi bir cebirsel anlamı var, ama ne yapıyor? Her "evet" olayları yakalıyor, ama aynı zamanda yanlış "evet" diyor sürü . İyi mi? Kötümü? Neden sistemi inşa ettiğinize bağlıdır . "Evet" tahmini gördüğünüzde ne yapacaksınız? "Evet" etkinliğini kaçırmanın sonucu nedir?
roundsquare

1
Bu önlemlerin hiçbiri doğru doğruluk puanlama kuralları değildir
Frank Harrell

@roundsquare çok teşekkürler, ama her ikisi de 0 ve 1'e yakın olmayan patolojik olmayan vakalar için - muhtemelen son ölçümde, ikisi arasındaki benzerliği vurgulamanın faydasını görmemde yardıma ihtiyacım var!
matt

@FrankHarrell "odada fil" i işaret ettiğiniz için teşekkürler
matt
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.