Lojistik regresyon modeline sahip bazı özelliklere dayanarak öğrencilerin başarı veya başarısızlıklarını tahmin etmeye çalışıyorum. Modelin performansını artırmak için, öğrencileri bariz farklılıklara dayanarak farklı gruplara ayırmayı ve her grup için ayrı modeller oluşturmayı düşündüm. Ancak bu grupları sınavla tanımlamanın zor olabileceğini düşünüyorum, bu yüzden öğrencileri özellikleri üzerinde kümelenerek ayırmayı düşündüm. Bu, bu tür modellerin yapımında yaygın bir uygulama mıdır? Bunu bariz gruplara ayırmamı (örneğin, ilk dönem öğrencileri - geri dönen öğrenciler) ve daha sonra bu gruplar üzerinde kümelenme yapmayı veya baştan kümelenmeyi önerir misiniz?
Açıklığa kavuşturmak için:Demek istediğim, lojistik regresyon için eğitim setimi gruplara ayırmak için bir kümeleme algoritması kullanmayı düşünüyorum . O zaman bu grupların her biri için ayrı lojistik regresyonlar yapacağım. Daha sonra bir öğrencinin sonucunu tahmin etmek için lojistik regresyonu kullanırken, hangi gruba en uygun olduklarına bağlı olarak hangi modeli kullanacağımı seçerdim.
Belki aynı şeyi bir grup tanımlayıcısı da ekleyerek yapabilirim, örneğin, öğrenci dönüyorsa 1 ve değilse 0.
Şimdi, eğitim veri setini kümelendirmenin ve küme etiketlerini her nüfus için ayrı lojistik regresyon modelleri oluşturmak yerine lojistik regresyonda bir özellik olarak kullanmanın avantajlı olup olmadığını düşünmemi sağladınız.
Öğrencileri yeni öğrencilere karşı geri döndürenler için bir grup tanımlayıcısı eklemek yararlıysa, grup listesini genişletmek de yararlı olabilir mi? Kümeleme bunu yapmanın doğal bir yolu gibi görünüyor.
Umarım bu açıktır ...