Hassasiyet / geri çağırma / F1 temelli önem testi

Sadece hassasiyet / hatırlama / F1 puanlarına dayalı bir önem testi yapmak mümkün müdür?

Örneğin, yalnızca P / R / F1 bildirildiği (aynı veri kümesinde vb.) Bildirilen bir kağıtta 2 sistemle karşılaşırsanız, istatistiksel anlamlılık testi yapabilir misiniz? Evetse, bu nasıl yapılır?

statistical-significance precision-recall

— Vam
kaynak

Sezgisel olarak, küçük bir veri kümesinde veya çok düzgün / öngörülebilir bir veri kümesinde yüksek bir P / R / F1 elde etmek, büyük veya daha kaotik veri kümelerinde yüksek bir P / R / F1 elde etmekten daha kolaydır. Bu nedenle, daha büyük ve daha kaotik bir veri kümesinde P / R / F1'de bir iyileşme daha önemlidir.

Bu sezgiyi takiben, sonuçların dağılımındaki farkı ölçmek için, bu kümedeki boyutu ve çeşitliliği dikkate alarak, muhtemelen "kara kutu" yöntemlerinin çıktısına erişmeniz gerekir. Sadece P / R / F1 muhtemelen çok az bilgi.

Bu ayardaki önem testi genellikle boş bir hipotez (iki algoritma her zaman aynı çıktıyı üretir) ve ardından algoritmaların gerçekten aynı olup olmadığını gözlemlediğiniz çıktıdaki farkı gözlemleme olasılığını hesaplayarak yapılır. Olasılık örneğin .05'ten düşükse, sıfır hipotezini reddedersiniz ve iyileştirmenin önemli olduğu sonucuna varırsınız.

Bu makalenin konuyla ilgili tartışmaları var: http://www.aclweb.org/anthology/C00-2137

— Pablo Mendes
kaynak