Giriş değişkenlerimi ikili çıkış değişkenlerine sığdırmak için standart bir lojistik regresyon sürümü kullanıyorum.
Ancak benim sorunumda, negatif çıktılar (0s) pozitif çıktılardan (1s) çok daha fazla. Oran 20: 1'dir. Bu yüzden bir sınıflandırıcıyı eğittiğimde, pozitif bir çıktı olasılığını güçlü bir şekilde öne süren özelliklerin bile karşılık gelen parametreleri için hala çok düşük (son derece negatif) değerlere sahip olduğu görülmektedir. Bana öyle geliyor ki parametreleri yönlerine çeken çok fazla olumsuz örnek var.
Bu yüzden, pozitif örnekler için ağırlık ekleyip ekleyemeyeceğimi merak ediyorum (1 yerine 20 kullanarak). Bunun hiç faydası var mı? Ve eğer öyleyse, ağırlıkları nasıl eklemeliyim (aşağıdaki denklemlerde).
Maliyet fonksiyonu aşağıdaki gibi görünür:
Bu maliyet fonksiyonunun (wrt ) gradyanı :
Burada = test vakası sayısı, = özellik matrisi, = çıktı vektörü, = sigmoid fonksiyon, = öğrenmeye çalıştığımız parametreler.
Sonunda mümkün olan en düşük bulmak için degrade inişini çalıştırıyorum . Uygulama düzgün çalışıyor gibi görünüyor.