Niçin iyi yolu nedir olduğu değil F1 ile kıyaslandığında, diyelim ki, iyi bir tedbir?
Niçin iyi yolu nedir olduğu değil F1 ile kıyaslandığında, diyelim ki, iyi bir tedbir?
Yanıtlar:
Hassasiyet ve hatırlamanın şu şekilde tanımlandığını hatırlayın:
Bir araya getirmek için geri dönelim ve bir tweak yapmak: çarpın
Yani, aynı sayıya, ancak farklı paydalara sahip iki miktarımız var ve bunların ortalamasını almak istiyoruz. Biz ne yaptık? Onları ters çevirebiliriz, tersini alabiliriz. Sonra bunları bir araya getirebilirsiniz. Yani onlar "sağ taraf yukarı", yine tersini alırsın.
Bu ters çevirme ve sonra tekrar ters çevirme süreci, "düzenli" bir ortalamayı harmonik bir ortama dönüştürür. Sadece çok hassas ve hatırlama harmonik ortalaması olur ise F1-istatistik. Burada yaptığımız gibi oranlarla uğraşırken standart aritmetik ortalama yerine harmonik ortalama kullanılır.
Sonunda, F1 istatistiği sadece hassasiyet ve hatırlamanın ortalamasıdır ve bunu kullanırsınız çünkü modelin performansını değerlendirmek için birini veya diğerini seçmek istemezsiniz.
Kısa cevap: iki farklı paydaya sahip iki yüzdenin toplanmasının belirli bir anlamı olmasını beklemezsiniz. Dolayısıyla, F1, F2 veya F0.5 gibi ortalama bir ölçü alma yaklaşımı. İkincisi, en azından bir yüzde özelliğini korur. Ne anlama geliyor?
Hassasiyet ve Geri Çağırma'nın ayrı önlemler olarak güzelliği, yorum kolaylığı ve modelin iş hedefleriyle kolayca karşı karşıya kalabilmeleridir. Kesinlik , modele göre true positives
sınıflandırılan vakaların yüzdesini ölçer positive
. Geri çağırmatrue positives
, modelin bulduğu yüzdeyi tüm true
vakalardan ölçer . Birçok sorun için, Hassas veya Geri Çağırma'yı optimize etmek arasında seçim yapmanız gerekecektir.
Herhangi bir ortalama ölçü yukarıdaki yorumu kaybeder ve en çok tercih ettiğiniz ölçüme kaynar. F1, Geri Çağırma veya Hassasiyeti tercih edeceğinizi bilmediğiniz veya her birine eşit ağırlık eklediğiniz anlamına gelir. Hatırlamayı Hassas'dan daha önemli olarak değerlendirirseniz, ortalama hesaplamada (örneğin F2) ve bunun tersi (örn. F0.5) için daha yüksek bir ağırlık ayırmanız gerekir.
İkisini eklemek kötü bir önlemdir. Her şeyi pozitif olarak işaretlerseniz en az 1 puan alırsınız, çünkü bu tanım gereği% 100 geri çağırmadır. Ve bunun üzerine biraz hassas bir çarpma elde edersiniz. F1'de kullanılan geometrik ortalama, çarpıcı olduğu için zayıf bağlantıyı vurgular; iyi bir F1 puanı almak için en azından hem hassasiyet hem de hatırlama ile iyi yapmak zorunda.
F1 skoru, ciddi asimetrik olasılıklar durumunda özellikle değerlidir.
Aşağıdaki örneği düşünün: nadir fakat tehlikeli bir hastalığı test ediyoruz. Diyelim ki 1.000.000 kişilik bir şehirde sadece 100 kişi enfekte.
Test A, bu 100 pozitifin tümünü algılar. Bununla birlikte,% 50 yanlış pozitif oranına sahiptir: yanlışlıkla 500.000 kişinin daha hasta olduğunu göstermektedir.
Bu arada, test B enfekte olanın% 10'unu kaçırır, ancak sadece 1.000 yanlış pozitif verir (% 0.1 yanlış pozitif oran)
Skorları hesaplayalım. Test A için hassasiyet etkili bir şekilde 0 olacaktır; hatırlama tam olarak 1 olacaktır. B testi için, hassasiyet yaklaşık 0,01 oldukça küçük olacaktır. Hatırlama 0,9'a eşit olacaktır.
Saflık ve geri çağırma aritmetik ortalamasını toplarsak veya alırsak, bu test A için 1 (0.5) ve test B için 0.91 (0.455) verecektir. Dolayısıyla, test A marjinal olarak daha iyi görünecektir.
Bununla birlikte, pratik bir perspektiften bakarsak, A testi değersizdir: bir kişi pozitif test edilirse, gerçekten hasta olma şansı 50.000'de 1'dir! Test B'nin daha pratik önemi vardır: 1.100 kişiyi hastaneye götürebilir ve yakından gözlemleyebilirsiniz. Bu F1 puanıyla doğru bir şekilde yansıtılır: A testi için 0.0002'ye yakın, B testi için: (0.01 * 0.9) / (0.01 + 0.9) = 0.0098, hala oldukça zayıf, ancak yaklaşık 50 kat daha iyi.
Puan değeri ile pratik önem arasındaki bu maç F1 puanını değerli kılan şeydir.
Genel olarak, geometrik ortalamanın en üst düzeye çıkarılması, değerlerin benzer olduğunu vurgular. Örneğin, iki model alın: İlki (hassasiyet, hatırlama) = (0.8, 0.8) ve ikincisi (hassasiyet, hatırlama) = (0.6, 1.0). Cebirsel ortalama kullanıldığında, her iki model de eşdeğer olacaktır. Geometrik ortalamayı kullanarak, ilk model daha iyidir çünkü hatırlama için hassas işlem yapmaz.