Bir dönemin sonunda bir öğrencinin başarı olasılığını tahmin eden öngörülü bir model inşa ediyorum. Öğrencinin başarılı veya başarısız olup olmadığı, başarının genellikle kursu tamamlamak ve mümkün olan toplam puanların% 70'ini veya daha fazlasını elde etmek olarak tanımlandığı ile ilgileniyorum.
Modeli yerleştirdiğimde, daha fazla bilgi elde edildikçe başarı olasılığı tahmininin zaman içinde güncellenmesi gerekir - ideal olarak bir şey gerçekleştikten hemen sonra, örneğin bir öğrenci bir ödev teslim ettiğinde veya bir not aldığında. Bu güncelleme bana biraz Bayes gibi geliyor, ama eğitim istatistiklerinde eğitimim verildiğinde, bu benim rahatlık alanımın biraz dışında.
Şimdiye kadar hafta tabanlı anlık görüntüler içeren tarihsel bir veri kümesi ile lojistik regresyon (aslında Kement) kullanıyorum. Her öğrencinin T e r m L e n g t h / 7 olduğu için bu veri seti gözlemlerle ilişkilendirilmiştir.gözlemler; bir öğrenci için gözlemler birbiriyle ilişkilidir. Belirli bir öğrencinin haftalık gözlemlerinde korelasyonu özel olarak modellenmiyorum. Standart hataların çok küçük olacağı için sadece çıkarımsal bir ortamda bunu düşünmem gerektiğine inanıyorum. Bence - ama bundan emin değilim - ilişkili gözlemlerden kaynaklanan tek sorun, verilerin bir alt kümesinde kümelenmiş gözlemleri tutmak için çapraz doğruladığımda dikkatli olmam gerektiğidir, böylece almıyorum modelin daha önce gördüğü bir kişi hakkında tahminler yapmaya dayanan yapay olarak düşük örnek dışı hata oranları.
Başarı / başarısızlık olasılığı oluşturmak ve belirli bir ders için otomatik olarak tahmin ediciler seçmek için lojistik modelli bir kement yapmak için R'nin glmnet paketini kullanıyorum . Hafta değişkenini diğer tüm yordayıcılarla etkileşime giren bir faktör olarak kullanıyorum. Bunun genel olarak sadece haftaya dayalı modelleri tahmin etmekten farklı olduğunu düşünmüyorum, ancak farklı haftalarda çeşitli risk ayarlama faktörleri ile ayarlanan terim boyunca sahip olan bazı ortak modelin nasıl olabileceğine dair bir fikir veriyor.
Benim asıl soru her özelliği ile etkileşim bir zaman periyodu faktör değişkeni tanıtan, zamanla sınıflandırma olasılıkları güncellenmesi yerine sadece (aralık tabanlı veya diğer) haftalık anlık içine veri setini bölünmesi daha iyi bir yolu var mı ve: şudur kümülatif özellikler (kazanılan kümülatif puanlar, sınıftaki kümülatif günler, vb.)
Benim ikinci soru şu oluyor: korelasyon gözlemlerle öngörü modellemesi hakkında burada kritik bir şey eksik?
Benim üçüncü soru ise: Ben haftalık anlık yapıyorum vermiş olduğu, gerçek zamanlı güncellenmesi için bu genelleme nasıl? Ben sadece mevcut haftalık aralık için değişkenler takmayı planlıyorum, ama bu bana kludgey gibi görünüyor.
FYI, uygulamalı eğitim istatistikleri konusunda eğitildim, ancak uzun zaman önce matematiksel istatistiklerle ilgili bir geçmişim var. Eğer mantıklıysa daha sofistike bir şey yapabilirim ama nispeten erişilebilir terimlerle açıklanmasına ihtiyacım var.