Dengesiz veri kümemde rastgele bir orman modeli çalıştırmak için Python kullanıyorum (hedef değişken ikili bir sınıftı). Eğitim ve test veri kümesini böldüğümde, katmanlı örnekleme (gösterilen kod gibi) kullanıp kullanmama konusunda mücadele ettim. Şimdiye kadar, projemde tabakalı vakanın daha yüksek bir model performansına yol açacağını gözlemledim. Ancak, modelimi, hedef sınıfın mevcut veri kümemle dağılımında büyük olasılıkla farklılık gösterecek yeni vakaları tahmin etmek için kullanacaksam. Bu yüzden bu kısıtlamayı gevşetmeye ve tabakalandırılmamış bölünmeyi kullanmaya meyilliyim. Herkes bu noktayı açıklığa kavuşturmak için tavsiye verebilir mi?
train,test=train_test_split(myDataset, test_size=0.25, stratify=y)