Orijinal veri kümesini sınıflandırma için eğitim ve test setine bölerken rastgele örnekleme yerine tabakalı örnekleme kullanmanın herhangi bir / bazı avantajları olup olmadığını bilmek istiyorum.
Ayrıca, tabakalı örnekleme sınıflandırıcıya rastgele örneklemeden daha fazla yanlılık getirir mi?
Veri hazırlama için tabakalı örnekleme kullanmak istediğim uygulama, orijinal veri kümesinin üzerinde eğitilmiş bir Random Forests sınıflandırıcısıdır . Sınıflandırıcıdan önce, sınıfların boyutunu dengeleyen bir sentetik örnek oluşturma aşaması (SMOTE [1]) da vardır.
[1] Chawla, Nitesh V., vd. " SMOTE: sentetik azınlık aşırı örnekleme tekniği. " Yapay Zeka Araştırmaları Dergisi 16 (2002): 321-357.