Makine öğrenimine yeni başlıyorum ve bir durumla karşı karşıyayım. IPinYou veri kümesi ile bir Gerçek Zamanlı Teklif sorunu üzerinde çalışıyorum ve bir tıklama tahmini yapmaya çalışıyorum.
Mesele şu ki, bildiğiniz gibi, veri kümesi çok dengesiz: 1 olumlu örnek (tıklama) için yaklaşık 1300 negatif örnek (tıklama yok).
Bu benim işim:
- Verileri yükleyin
- Veri kümesini 3 veri kümesine bölün: A = Eğitim (% 60) B = Doğrulama (% 20) C = Test (% 20)
- Her veri kümesi için (A, B, C), 5 (1 pozitif örnek için 5 negatif örnek) oranına sahip olmak için her negatif sınıfta bir örnekleme yapın. Bu bana daha dengeli 3 yeni veri kümesi veriyor: A 'B' C '
Sonra modelimi A 'veri kümesi ve lojistik regresyon ile eğitiyorum.
Sorum şu:
Doğrulama için hangi veri kümesini kullanmam gerekiyor? B veya B '?
Test için hangi veri kümesini kullanmam gerekiyor? C veya C '
Modelimi değerlendirmek için hangi metrikler en alakalı? F1Score, iyi kullanılan bir metrik gibi görünüyor. Ancak burada dengesiz sınıf nedeniyle (B ve C veri kümelerini kullanırsam) hassasiyet düşüktür (0.20'nin altında) ve F1Score düşük hatırlama / hassasiyetten çok etkilenir. AucPR veya aucROC kullanmak daha doğru olur mu?
Öğrenme eğrisini çizmek istersem hangi metrikleri kullanmalıyım? (doğrulamak için B 'veri kümesini kullanırsam% hatasının alakalı olmadığını bilmek)
Zaman ayırdığınız için şimdiden teşekkür ederiz!
Saygılarımızla.