GBM sınıflandırması dengesiz sınıf boyutlarından muzdarip mi?


16

Denetimli bir ikili sınıflandırma sorunuyla ilgileniyorum. GBM paketini bireyleri virüs bulaşmamış / virüs bulaşmış olarak sınıflandırmak için kullanmak istiyorum. Enfekte olmuş bireylerden 15 kat daha fazla enfekte olmuşum var.

Dengesiz sınıf boyutlarında GBM modellerinin acı çekip çekmediğini merak ediyordum. Bu soruyu cevaplayan bir referans bulamadım.

Enfekte olmamış kişilere 1, enfekte olanlara 15 ağırlık atayarak ağırlıkları ayarlamaya çalıştım, ancak kötü sonuçlar elde ettim.


1
(yan not) GBM'nin neyi temsil ettiğini ve pakete bir bağlantı sağlamanız yararlı olacaktır.
Memming

1
Gradyan yükseltme modeliniz için hangi kayıp fonksiyonunu kullanıyorsunuz? Dengesiz sınıflara gelince, ortalama mutlak hata kullandığımda düşük performans gördüm çünkü en yaygın sınıfı tercih ediyor gibi görünüyor. Ortalama kare hatası kullandığımda performans önemli ölçüde iyileşti
Ryan Zotti

Sadece ileride başvurmak için, caret logaritmik kayıp (çapraz sapma) tarafından kullanılan varsayılan kayıp işlevini de oldukça yararlı buluyorum. (olumsuz logaritmik ölçekte yanlış davalara ağır ceza verir)
Lily Long

Yanıtlar:


4

Deneyimlerime göre, GBM gerçekten dengesiz sınıf boyutlarından muzdarip. Azınlık sınıfını aşırı örneklerken sentetik veri üreten SMOTE örneklemesini kullanarak başarılı oldum. DMwRPakette bulabilirsiniz .


Biraz kafam karıştı. GBM'nin veri dengesizliğini ele almak için bir yaklaşım olması gerekmez mi?
Şuna bir

5

Verilerinizin geçmişte çalıştığım Secom verilerine benzediğini ve birçok zorlukla karşılaştığını düşünüyorum. Ben ne denedim aşağıdadır:

  • Farklı örnekleme teknikleri
  • Rastgele Orman, YSA, GBM, Topluluk yöntemleri vb. Gibi farklı sınıflandırıcılar.

Ayrıca , Adaboost, Random Forest gibi diğerlerine kıyasla daha iyi sonuçlar veren 1-Sınıf SVM'yi denedim. Bunu da deneyebilirsiniz.

Ve bu soruyu 1 yıl önce sorduğunuzu görebiliyorum, bu yüzden en iyi yolu bulduysanız, lütfen buraya gönderin, böylece daha iyi doğruluk elde etmek için yardım alabilirim.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.