Bir lojistik regresyon modelim var (elastik net regülasyonlu R'de glmnet ile uyumlu) ve gerçek pozitifler ve yanlış pozitifler arasındaki farkı en üst düzeye çıkarmak istiyorum. Bunu yapmak için aşağıdaki prosedür akla geldi:
- Standart lojistik regresyon modeline uygun
- Tahmin eşiğini 0,5 olarak kullanarak, tüm pozitif tahminleri belirleyin
- Olumlu tahmin edilen gözlemler için ağırlık 1, diğerleri için 0 atayın
- Ağırlıklı lojistik regresyon modeline uygun
Bu yaklaşımdaki kusurlar ne olurdu? Bu soruna devam etmenin doğru yolu ne olabilir?
Gerçek pozitiflerin sayısı ile yanlış negatifler arasındaki farkı en üst düzeye çıkarmak istememin nedeni başvurumun tasarımından kaynaklanıyor. Bir sınıf projesinin bir parçası olarak, bir çevrimiçi pazarda özerk bir katılımcı inşa ediyorum - eğer modelim bir şey satın alabileceğini ve daha sonra daha yüksek bir fiyata satabileceğini tahmin ederse, bir teklif verir. Sabit maliyetlere ve birim fiyat artışlarına bağlı olarak lojistik regresyon ve çıktı ikili sonuçlarına (kazan, kaybet) bağlı kalmak istiyorum (her işlemde aynı tutarı kazanıyorum ya da kaybediyorum). Yanlış bir pozitif beni incitir, çünkü bir şey satın aldığım ve daha yüksek bir fiyata satamayacağım anlamına gelir. Ancak, yanlış bir negatif bana zarar vermez (sadece fırsat maliyeti açısından), çünkü sadece satın almazsam, ama olsaydım para kazanırdım. Benzer şekilde,
0.5 kesintisinin tamamen keyfi olduğunu kabul ediyorum ve doğru / yanlış pozitifler arasında en yüksek farkı veren tahmin eşiği üzerindeki 1. adımdaki modeli optimize ettiğimde 0.4'e daha yakın olduğu ortaya çıkıyor. Bunun verilerimin çarpık doğasından kaynaklandığını düşünüyorum - negatifler ve pozitifler arasındaki oran yaklaşık 1: 3.
Şu anda aşağıdaki adımları izliyorum:
- Verileri antrenmana / teste böl
- Antrenmana uygun model, test setinde tahminler yapma ve gerçek / yanlış pozitifler arasındaki farkı hesaplama
- Modeli tam olarak sığdırın, test setinde tahminler yapın ve gerçek / yanlış pozitifler arasındaki farkı hesaplayın
Gerçek / yanlış pozitifler arasındaki fark, eğitim setinin tam setin bir altkümesi olmasına rağmen, 3. adımda 2. adımdan daha küçüktür. # 3'teki modelin daha gerçek negatiflere ve daha az yanlış negatiflere sahip olup olmadığı umurumda olmadığından, olasılık işlevini değiştirmeden yapabileceğim bir şey var mı?