Nadir bir olay için kesme olasılığı nasıl seçilir Lojistik Regresyon


11

1000 pozitif ile 100.000 gözlemim (9 kukla gösterge değişkeni) var. Bu durumda Lojistik Regresyon iyi çalışmalıdır, ancak kesim olasılığı beni şaşırtıyor.

Ortak literatürde, 1 ve 0'ları tahmin etmek için% 50 kesme seçiyoruz. Modelim ~% 1 maksimum değer verdiğinden bunu yapamam. Yani bir eşik 0,007'de veya onun etrafında bir yerde olabilir.

ROCEğrileri ve eğri altındaki alanın aynı veri kümesi için iki LR modeli arasında seçim yapmama nasıl yardımcı olabileceğini anlıyorum . Bununla birlikte, ROC, modeli örnek olmayan bir veri üzerinde test etmek için kullanılabilecek optimum kesme olasılığını seçmeme yardımcı olmaz.

Sadece en aza indiren bir kesme değeri kullanmalı mıyım misclassification rate? ( http://www2.sas.com/proceedings/sugi31/210-31.pdf )

Eklendi -> Böyle düşük bir olay oranı için, yanlış sınıflandırma oranlarım çok sayıda yanlış pozitiften etkileniyor. Toplam evren büyüklüğü de büyük olduğu için tüm oranlar iyi gözükse de, modelimde çok fazla yanlış pozitif olmamalıdır (bir yatırım getirisi modeli olduğu için). 5/10 katsayısı önemlidir.


3
Kesintiyi belirlemesi gereken olasılıklarla birlikte iki tür yanlış sınıflamanın göreceli maliyeti . Sadece olasılık modelini doğrulamak istiyorsanız, test setine uygulandığında AUC veya Brier puanını hesaplayın.
Scortchi - Eski durumuna getir Monica



@ Tae-SungShin Bağlantı için teşekkürler. Yardımcı olur. Sanırım Q'uma kesin bir cevap yok. Modelimde çok sayıda yanlış pozitif var.
Maddy

@Scortchi Teşekkürler. 2 farklı lojistik regresyon modelini (ekstra öngörücülerle) karşılaştırıyor olsaydım AUC kullanmak yararlı olabilirdi, ancak benim durumumda bana nasıl yardımcı olduğundan emin değilim. Modelimin toplam başarı olasılığını veriyor ama kesme olasılığını seçmeme yardımcı olmuyor.
Maddy

Yanıtlar:


5

% 50'lik bir kesimin doğal olarak geçerli olduğunu veya literatür tarafından desteklendiğini kabul etmiyorum. Böyle bir kesintinin haklı gösterilebileceği tek durum, sonucun yaygınlığının tam olarak% 50 olduğu bir vaka kontrol tasarımındadır, ancak o zaman bile seçim birkaç koşula tabidir. Kesim seçimi için temel mantığın, tanı testinin istenen çalışma özelliği olduğunu düşünüyorum.

İstenen hassasiyet veya özgüllüğü elde etmek için bir kesme seçilebilir. Bunun bir örneği için tıbbi cihaz literatürüne başvurun. Hassasiyet genellikle sabit bir miktara ayarlanır: örneklere% 80,% 90,% 95,% 99,% 99.9 veya% 99.99 dahildir. Duyarlılık / özgüllük dengesi Tip I ve Tip II hatalarının zararları ile karşılaştırılmalıdır. Çoğu zaman, istatistiksel testlerde olduğu gibi, tip I hatasının zararları daha büyüktür ve bu riski kontrol ediyoruz. Yine de, bu zararlar nadiren ölçülebilir. Bu nedenle, tek bir tahmin doğruluğuna dayanan seçim yöntemlerini kesmek için büyük itirazlarım var: yanlış, zararların ölçülebildiğini ve ölçülebildiğini iletiyorlar.

Çok fazla sayıda yanlış pozitif sorununuz bunun tam tersine bir örnektir: Tip II hatası daha zararlı olabilir. Daha sonra, istenen bir özgüllüğü elde etmek için eşiği ayarlayabilir ve elde edilen hassasiyeti bu eşikte bildirebilirsiniz.

Her ikisinin de uygulama için kabul edilemeyecek kadar düşük olduğunu görürseniz, risk modeliniz çalışmaz ve reddedilmelidir.

Hassasiyet ve özgüllük, olası tüm kesme değerleri aralığında kolayca hesaplanır veya bir tablodan aranır. ROC ile ilgili sorun, grafikteki belirli kesme bilgilerini atlamasıdır. Bu nedenle ROC, bir kesme değeri seçmek için önemsizdir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.