(Buna kısa cevap vermek için :)
Dengesiz bir veri kümesiyle uğraşırken degrade artırıcı bir makine algoritması kullanmak iyidir. Güçlü dengesiz bir veri kümesiyle uğraşırken, kullanılan metriğin uygunluğunu sorgulamak çok daha önemlidir. Doğruluk veya Geri Çağırma gibi keyfi eşiklere dayanan metriklerden potansiyel olarak kaçınmalı ve daha doğru bir resim veren AUCPR veya Brier puanlaması gibi metrikleri tercih etmeliyiz - mükemmel CV'ye bakın . sınıflandırma modellerini değerlendirmek için en iyi önlem? daha fazlası için). Benzer şekilde, potansiyel olarak farklı yanlış sınıflandırma maliyetleri atayarak maliyet duyarlı bir yaklaşım uygulayabiliriz (ör. Masnadi-Shirazi ve Vasconcelos (2011) Maliyete Duyarlı Arttırmagenel bir görünüm ve bilinen arttırıcı algoritmalarda önerilen değişiklikler veya daha basit bir yaklaşımla belirli bir ilginç uygulama için XGBoost algoritması için Higgs Boson meydan raporunu kontrol edin; Chen & He (2015) Artırılmış Ağaçlar ile Higgs Boson Keşfi daha fazla ayrıntı sağlar).
Olasılıksal bir sınıflandırıcı (GBM'ler gibi) kullanırsak, döndürülen olasılıkları kalibre etmeye aktif olarak bakabileceğimizi / incelememiz gerektiğini de belirtmek gerekir (örneğin, bkz. Zadrozny ve Elkan (2002) Sınıflandırıcı puanları doğru çok sınıflı olasılık tahminlerine veya Kull ve ark. 2017) Beta kalibrasyonu: ikili sınıflandırıcılar için lojistik kalibrasyonda iyi kurulmuş ve kolayca uygulanan bir iyileştirmedir ) öğrenci performansımızı potansiyel olarak arttırmak için. Özellikle dengesiz verilerle çalışırken, eğilim değişikliklerini yeterince yakalamak, sadece verileri etiketlemekten daha bilgilendirici olabilir. Bu ölçüde, bazıları maliyete duyarlı yaklaşımların sonunda bu kadar yararlı olmadığını iddia edebilirler (örneğin bkz. Nikolaou ve diğerleri (2016).Maliyete duyarlı artırma algoritmaları: Onlara gerçekten ihtiyacımız var mı? ). Orijinal noktayı tekrarlamak için, algoritmaları dengesiz veriler için doğal olarak kötü değildir ve bazı durumlarda çok rekabetçi bir seçenek sunabilirler.