Ciddi dengesiz veriler üzerinde çalışıyorum. Literatürde, yeniden örnekleme (aşırı veya düşük örnekleme) kullanarak verileri yeniden dengelemek için çeşitli yöntemler kullanılmaktadır. İki iyi yaklaşım:
SMOTE: Sentetik Azınlık Aşırı Örnekleme Teknikleri ( SMOTE )
ADASYN: Dengesiz Öğrenme için Uyarlanabilir Sentetik Örnekleme Yaklaşımı ( ADASYN )
ADASYN'i uyarladım çünkü uyarlanabilir yapısı ve çok sınıflı problemlere genişleme kolaylığı.
Benim sorum ADASYN tarafından üretilen aşırı örneklenmiş verilerin (veya başka bir aşırı örnekleme yönteminin) nasıl test edileceğidir. Bahsedilen iki makalede deneylerini nasıl gerçekleştirdikleri açık değildir. İki senaryo vardır:
1- Tüm veri kümesini aşırı örnekleyin, ardından eğitim ve test setlerine (veya çapraz doğrulamaya) bölün.
2- Orijinal veri kümesini böldükten sonra, yalnızca eğitim setinde aşırı örnekleme yapın ve orijinal veri test setini test edin (çapraz doğrulama ile gerçekleştirilebilir).
İlk durumda, sonuçlar aşırı örneklemeden çok daha iyidir, ancak aşırı sığdırma varsa endişeliyim. İkinci durumda, sonuçlar aşırı örneklemeden biraz daha iyi ve ilk durumdan çok daha kötü. Ancak ikinci durumla ilgili endişe, tüm azınlık sınıfı örneklerinin test setine gitmesi durumunda, aşırı örneklemeyle hiçbir fayda sağlanamayacağıdır.
Bu tür verileri test etmek için başka ayarlar olup olmadığından emin değilim.