Zaman içinde lojistik regresyonda sınıflandırma olasılığını güncelleme


19

Bir dönemin sonunda bir öğrencinin başarı olasılığını tahmin eden öngörülü bir model inşa ediyorum. Öğrencinin başarılı veya başarısız olup olmadığı, başarının genellikle kursu tamamlamak ve mümkün olan toplam puanların% 70'ini veya daha fazlasını elde etmek olarak tanımlandığı ile ilgileniyorum.

Modeli yerleştirdiğimde, daha fazla bilgi elde edildikçe başarı olasılığı tahmininin zaman içinde güncellenmesi gerekir - ideal olarak bir şey gerçekleştikten hemen sonra, örneğin bir öğrenci bir ödev teslim ettiğinde veya bir not aldığında. Bu güncelleme bana biraz Bayes gibi geliyor, ama eğitim istatistiklerinde eğitimim verildiğinde, bu benim rahatlık alanımın biraz dışında.

Şimdiye kadar hafta tabanlı anlık görüntüler içeren tarihsel bir veri kümesi ile lojistik regresyon (aslında Kement) kullanıyorum. Her öğrencinin T e r m L e n g t h / 7 olduğu için bu veri seti gözlemlerle ilişkilendirilmiştir.TermLength/7gözlemler; bir öğrenci için gözlemler birbiriyle ilişkilidir. Belirli bir öğrencinin haftalık gözlemlerinde korelasyonu özel olarak modellenmiyorum. Standart hataların çok küçük olacağı için sadece çıkarımsal bir ortamda bunu düşünmem gerektiğine inanıyorum. Bence - ama bundan emin değilim - ilişkili gözlemlerden kaynaklanan tek sorun, verilerin bir alt kümesinde kümelenmiş gözlemleri tutmak için çapraz doğruladığımda dikkatli olmam gerektiğidir, böylece almıyorum modelin daha önce gördüğü bir kişi hakkında tahminler yapmaya dayanan yapay olarak düşük örnek dışı hata oranları.

Başarı / başarısızlık olasılığı oluşturmak ve belirli bir ders için otomatik olarak tahmin ediciler seçmek için lojistik modelli bir kement yapmak için R'nin glmnet paketini kullanıyorum . Hafta değişkenini diğer tüm yordayıcılarla etkileşime giren bir faktör olarak kullanıyorum. Bunun genel olarak sadece haftaya dayalı modelleri tahmin etmekten farklı olduğunu düşünmüyorum, ancak farklı haftalarda çeşitli risk ayarlama faktörleri ile ayarlanan terim boyunca sahip olan bazı ortak modelin nasıl olabileceğine dair bir fikir veriyor.

Benim asıl soru her özelliği ile etkileşim bir zaman periyodu faktör değişkeni tanıtan, zamanla sınıflandırma olasılıkları güncellenmesi yerine sadece (aralık tabanlı veya diğer) haftalık anlık içine veri setini bölünmesi daha iyi bir yolu var mı ve: şudur kümülatif özellikler (kazanılan kümülatif puanlar, sınıftaki kümülatif günler, vb.)

Benim ikinci soru şu oluyor: korelasyon gözlemlerle öngörü modellemesi hakkında burada kritik bir şey eksik?

Benim üçüncü soru ise: Ben haftalık anlık yapıyorum vermiş olduğu, gerçek zamanlı güncellenmesi için bu genelleme nasıl? Ben sadece mevcut haftalık aralık için değişkenler takmayı planlıyorum, ama bu bana kludgey gibi görünüyor.

FYI, uygulamalı eğitim istatistikleri konusunda eğitildim, ancak uzun zaman önce matematiksel istatistiklerle ilgili bir geçmişim var. Eğer mantıklıysa daha sofistike bir şey yapabilirim ama nispeten erişilebilir terimlerle açıklanmasına ihtiyacım var.

Yanıtlar:


4

t0,t1,...,tntben(Zben,Sben)ZbenSben(1,0)PrÖb(zben=0|sben-1)Sben

Bırakma olasılıkları sabit değildir, çünkü son penaltısız bırakma tarihinden hemen önce bir bırakma kesintisi alırsınız. Ancak bunları geçmiş verilerden tahmin edebilirsiniz.Ayrıca mevcut (kasvetli) performansın bir fonksiyonu olarak bırakma olasılığını da tahmin edebilirsiniz.

Sn

ZS

S

Başlangıçta, bir öğrencinin geçiş olasılığı bir önceki sınıfın geçiş oranıdır.

S170-S1

Bir bonus olarak, terim ilerledikçe daralması gereken bir dizi olasılık hesaplayabilirsiniz. Aslında, güçlü öğrenciler dönem sonundan önce% 70 \ işaretini geçecek ve başarıları bu noktada kesin olacaktır. Zayıf öğrenciler için başarısızlık da sondan önce belli olacaktır.

RE: soru 3. Sürekli zamana gitmeli misiniz? Yapmazdım, çünkü bu sürekli zaman stokastik süreçler alanına girer ve ilgili matematik ücret derecemin üzerindedir. Sadece bu değil, büyük ölçüde farklı bir sonuç elde etme olasılığınız da yok.

Belirttiğim modeli yükseltmenin en iyi yolu, sürekli zamana gitmek değil, daha önceki deneyim temelinde geçiş olasılıklarını ayarlamaktır. Belki zayıf öğrenciler, bir bağımsızlık modelinin tahmin edebileceğinden daha geride kalırlar. Homojenliği dahil etmek modeli ayrık zamandan sürekli zamana değil, daha fazla geliştirecektir.


0

Benzer bir dağıtım türü için tahmin modellerini eğittiğimde, veri kümelerimin bir tür Term_End_Date olduğundan emin olun, böylece terim bitene kadar kalan süreyi azaltabilirim. Bu muhtemelen modelinizde önemli bir yordayıcı olacaktır.

İlişkili gözlemler meselesi ile ilgili olarak, veri deponuzun büyüklüğünün önemli olduğunu düşünüyorum. Mümkünse, her bir öğrenci için rastgele [Dönem Sonuna Kadar # hafta içinde] katmanlandırılmış 1 gözlem seçerdim. Mümkünse eski terimlerden de alırdım. Bunu yapmak için yeterli veriye sahip değilseniz, belki de bootstrap gibi bir yeniden örnekleme yöntemini deneyebilirsiniz.

Küçük bir veri kümeniz varsa, en önemli şey, son modelinizin istikrarlı olduğundan emin olmak için yeterli veri tutmaktır.

Bence işiniz bittiğinde ve bir puanlama formülünüz varsa, bunu uygulamak oldukça kolay olacaktır. Ancak evet, yine de skoru hesaplamanız gereken haftalık x değişkenlerini takmanız gerekiyor - ancak bu daha çok bir veri toplama sorunu gibi görünüyor ve model uygulaması hakkında daha az.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.