Burada çeşitli konulara göz atıyorum, ancak tam sorumun cevaplandığını sanmıyorum.
Yaklaşık 50.000 öğrenciden oluşan bir veri setim ve ayrılma zamanlarım var. Çok sayıda potansiyel ortak değişkenle orantılı tehlike regresyonu yapacağım. Ayrıca okuldan ayrılmak / kalmak için lojistik regresyon yapacağım. Ana hedef, yeni öğrenci grupları için tahmin olacaktır, ancak geçen yılki kohorttan çok farklı olacaklarına inanmak için hiçbir nedenimiz yok.
Genellikle, böyle lüks bir veriye sahip değilim ve bir çeşit ceza ile model uydurma yapıyorum, ancak bu sefer int eğitim ve test veri setlerini bölmeyi ve sonra eğitim setinde değişken seçimi yapmayı düşündüm; daha sonra parametreleri ve tahmin kapasitesini tahmin etmek için test veri kümesini kullanın.
Bu iyi bir strateji mi? Değilse, daha iyi olan nedir?
Alıntılar kabul edilir, ancak gerekli değildir.