Oldukça önyargılı bir ikili veri setim var - Negatif sınıfın pozitif sınıftan 1000 kat daha fazla örneği var. Bu veriler üzerinde bir Ağaç Topluluğu (Ekstra Rastgele Ağaçlar veya Rastgele Orman gibi) eğitmek istiyorum, ancak pozitif sınıfın yeterli örneklerini içeren eğitim veri kümeleri oluşturmak zor.
Pozitif ve negatif örneklerin sayısını normalleştirmek için tabakalı örnekleme yaklaşımı yapmanın sonuçları ne olurdu? Başka bir deyişle, örneğin, eğitim setindeki pozitif sınıf örneklerinin sayısını yapay olarak şişirmek (yeniden örnekleyerek) kötü bir fikir midir?