Ben alt örnekleme (alt örnekleme) temel düzeyde sınıf dengesizliğini kontrol etmek için popüler bir yöntem olduğunu düşünüyorum, yani sorunun kökünü giderir. Tüm örnekleriniz için, sınıfın çoğunluğunun 1000'ini rastgele seçmek her seferinde işe yarayacaktır. Hatta 10 model yapmakla (1000 azınlığa karşı 1.000 çoğunluğun 10 katı) veri oynayarak tüm veri setinizi kullanacaksınız. Bu yöntemi kullanabilirsiniz, ancak yine de bazı topluluk yöntemlerini denemediğiniz sürece 9.000 örneği atıyorsunuz. Kolay düzeltme, ancak verilerinize göre en uygun modeli elde etmek zor.
Sınıf dengesizliği için kontrol etmeniz gereken derece büyük ölçüde hedefinize bağlıdır. Saf sınıflandırmayı önemsiyorsanız, dengesizlik çoğu teknik için% 50 olasılık kesimini etkileyecektir, bu yüzden altörneklemeyi düşünürüm. Yalnızca sınıflandırmaların sırasına önem veriyorsanız (genellikle negatiflerden daha yüksek pozitifler istiyorsanız) ve AUC gibi bir ölçü kullanıyorsanız, sınıf dengesizliği sadece olasılıklarınızı saptırır, ancak göreceli sıralama çoğu teknik için makul derecede kararlı olmalıdır.
Lojistik regresyon, sınıf dengesizliği için iyidir, çünkü azınlık sınıfından> 500'e sahip olduğunuz sürece, parametrelerin tahminleri yeterince doğru olacaktır ve tek etki kesişme üzerinde olacaktır, eğer bu bir şeyse düzeltilebilir istemek. Lojistik regresyon sadece sınıflardan ziyade olasılıkları modeller, böylece ihtiyaçlarınızı karşılamak için daha fazla manuel ayar yapabilirsiniz.
Sınıflandırma tekniklerinin çoğunda azınlık sınıfına daha fazla odaklanmanıza yardımcı olacak bir sınıf ağırlığı argümanı da vardır. Gerçek bir azınlık sınıfının özlü bir sınıflandırmasını cezalandıracak, bu nedenle genel accucracy'niz biraz acı çekecek, ancak doğru sınıflandırılmış daha azınlık sınıflarını görmeye başlayacaksınız.