Yanıtlar:
Sezgisel olarak, küçük bir veri kümesinde veya çok düzgün / öngörülebilir bir veri kümesinde yüksek bir P / R / F1 elde etmek, büyük veya daha kaotik veri kümelerinde yüksek bir P / R / F1 elde etmekten daha kolaydır. Bu nedenle, daha büyük ve daha kaotik bir veri kümesinde P / R / F1'de bir iyileşme daha önemlidir.
Bu sezgiyi takiben, sonuçların dağılımındaki farkı ölçmek için, bu kümedeki boyutu ve çeşitliliği dikkate alarak, muhtemelen "kara kutu" yöntemlerinin çıktısına erişmeniz gerekir. Sadece P / R / F1 muhtemelen çok az bilgi.
Bu ayardaki önem testi genellikle boş bir hipotez (iki algoritma her zaman aynı çıktıyı üretir) ve ardından algoritmaların gerçekten aynı olup olmadığını gözlemlediğiniz çıktıdaki farkı gözlemleme olasılığını hesaplayarak yapılır. Olasılık örneğin .05'ten düşükse, sıfır hipotezini reddedersiniz ve iyileştirmenin önemli olduğu sonucuna varırsınız.
Bu makalenin konuyla ilgili tartışmaları var: http://www.aclweb.org/anthology/C00-2137