Karar eşiği, tahmin ettiğiniz pozitiflerin sayısı ile tahmin ettiğiniz negatiflerin sayısı arasında bir denge yaratır - çünkü, totolojik olarak, karar eşiğini artırmak, tahmin ettiğiniz pozitiflerin sayısını azaltacak ve negatif olanların sayısını artıracaktır. tahmin edersiniz.
Karar eşiği, model ayarlama anlamında hiper parametre değildir , çünkü modelin esnekliğini değiştirmez .
C(örneğin, lojistik regresyon katsayıları farklı olacaktır), eşiği ayarlamak sadece iki şey yapabilir: FN için TP ve TN için FP'den işlem yapmak. Bununla birlikte, model aynı kalır, çünkü bu katsayıları değiştirmez. (Aynısı, rastgele ormanlar gibi katsayıları olmayan modeller için de geçerlidir: eşiği değiştirmek ağaçlar hakkında hiçbir şeyi değiştirmez.) Yani dar anlamda, hatalar arasında en iyi dengeyi bulmanız doğrudur. "ayar" dır, ancak eşiği değiştirmenin diğer model hiper parametrelerine optimize edilmiş bir şekilde bağlı olduğunu düşünmekte yanılıyorsunuz GridSearchCV
.
Başka bir deyişle, karar eşiğini değiştirmek, kaç tane Yanlış Pozitif ve Yanlış Negatif Olmak istediğiniz konusunda bir seçiminizi yansıtır. Karar eşiğini -1 gibi tamamen mantıksız bir değere ayarladığınız varsayımını düşünün. Tüm olasılıklar negatif değildir, bu nedenle bu eşikle her gözlem için "pozitif" tahmin edersiniz. Belli bir bakış açısından, bu harika, çünkü yanlış negatif oranınız 0.0. Bununla birlikte, yanlış pozitif oranınız da 1.0'ın en üstündedir, bu nedenle -1'deki eşik seçiminiz korkunçtur.
İdeal olan, elbette, 1.0 TPR ve 0.0 FPR ve 0.0 FNR'ye sahip olmaktır. Ancak bu, gerçek dünyadaki uygulamalarda genellikle imkansızdır, bu yüzden soru "ne kadar TPR için ne kadar FPR kabul etmeye hazırım?" Bu da roc eğrilerinin motivasyonudur .