Birkaç belirleyiciye sahip olduğum (biri en bilgilendirici olan) bir sınıflandırma görevim var ve sınıflandırıcımı oluşturmak için MARS modelini kullanıyorum (herhangi bir basit modelle ilgileniyorum ve açıklama amacıyla glms kullanmak çok iyi). Şimdi eğitim verilerinde çok büyük bir sınıf dengesizliği var (her pozitif örnek için yaklaşık 2700 negatif örnek). Bilgi Edinme görevlerine benzer şekilde, en üst sıradaki pozitif test örneklerini tahmin etmekten endişe duyuyorum. Bu nedenle, Hassas Geri Çağırma eğrilerindeki performans benim için önemlidir.
Her şeyden önce, sadece eğitim dengesindeki modeli, sınıftaki dengesizliği olduğu gibi korudum. Eğitimli modelimi kırmızı, en önemlisi de mavi olanı görselleştiriyorum.
Dengesiz veriler hakkında eğitim, dengesiz veriler hakkında değerlendirme :
Sınıf dengesizliğinin modeli attığını düşünerek, en üst sıradaki pozitif örnekleri öğrenmek tüm veri setinin küçük bir parçası olduğundan, dengeli bir eğitim veri seti elde etmek için pozitif eğitim noktalarından örnek aldım. Performansı dengeli eğitim setinde gördüğümde, iyi performans elde ediyorum. Hem PR hem de ROC eğrilerinde, eğitimli modelim girdilerden daha iyi durumda.
(Örneklenmiş) dengeli veriler konusunda eğitim, (örneklenmiş) dengeli veriler hakkında değerlendirme:
Ancak, bu modeli dengeli veriler üzerinde eğitilmiş kullanırsam, orijinal, dengesiz eğitim setini tahmin etmek için PR eğrisinde hala kötü performans elde ederim.
Dengelenmiş (dengeli örneklenmiş) veri eğitimi, orijinal dengesiz veri değerlendirmesi:
Yani benim sorularım:
- PR eğrisinin görselleştirilmesinin nedeni eğitimli modelimin (kırmızı) düşük performans gösterdiğini ve ROC eğrisinin sınıf dengesizliği nedeniyle iyileştirmeler gösterdiğini mi gösteriyor?
- Örnekleme / örnekleme / örnekleme yaklaşımları, eğitimi yüksek hassasiyet / düşük geri çağırma bölgesine odaklanmaya zorlamak için bunu çözebilir mi?
- Eğitimi yüksek hassasiyet / düşük geri çağırma bölgesine odaklamanın başka bir yolu var mı?