1000 pozitif ile 100.000 gözlemim (9 kukla gösterge değişkeni) var. Bu durumda Lojistik Regresyon iyi çalışmalıdır, ancak kesim olasılığı beni şaşırtıyor.
Ortak literatürde, 1 ve 0'ları tahmin etmek için% 50 kesme seçiyoruz. Modelim ~% 1 maksimum değer verdiğinden bunu yapamam. Yani bir eşik 0,007'de veya onun etrafında bir yerde olabilir.
ROC
Eğrileri ve eğri altındaki alanın aynı veri kümesi için iki LR modeli arasında seçim yapmama nasıl yardımcı olabileceğini anlıyorum . Bununla birlikte, ROC, modeli örnek olmayan bir veri üzerinde test etmek için kullanılabilecek optimum kesme olasılığını seçmeme yardımcı olmaz.
Sadece en aza indiren bir kesme değeri kullanmalı mıyım misclassification rate
? ( http://www2.sas.com/proceedings/sugi31/210-31.pdf )
Eklendi -> Böyle düşük bir olay oranı için, yanlış sınıflandırma oranlarım çok sayıda yanlış pozitiften etkileniyor. Toplam evren büyüklüğü de büyük olduğu için tüm oranlar iyi gözükse de, modelimde çok fazla yanlış pozitif olmamalıdır (bir yatırım getirisi modeli olduğu için). 5/10 katsayısı önemlidir.