SORU:
Sınav sorularına ilişkin ikili veri var (doğru / yanlış) Bazı kişiler, bir soru alt kümesine ve doğru cevaplarına önceden erişebilmiş olabilir. Kim, kaç veya hangisi olduğunu bilmiyorum. Hiçbir hile olsaydı, ben öğe için doğru bir tepki olasılığını modellemek herhalde olarak , nerede soru zorluk temsil eder ve bireyin gizli yeteneğidir. Bu, R 'de ltm' nin rasch () gibi fonksiyonlarla tahmin edilebilecek çok basit bir madde cevap modelidir . Gizli değişkenin ( bireyleri dizine alır) tahminlerine ek olarak, ayrı tahminlere de erişebilirim. hile yapmanın mümkün olmadığı başka bir veri kümesinden türetilen aynı gizli değişken.
Amaç, muhtemelen hile yapan bireyleri ve aldattıkları eşyaları tespit etmektir. Alabileceğiniz bazı yaklaşımlar nelerdir? Ham verilere ek olarak, , ve kullanılabilir, ancak ilk ikisinin hile nedeniyle bir önyargıya sahip olmasına rağmen. İdeal olarak, çözüm gerekli olmamakla birlikte olasılıklı kümeleme / sınıflandırma biçiminde olacaktır. Pratik fikirler, resmi yaklaşımlar kadar memnuniyetle karşılanmaktadır.
Şimdiye kadar yüksek vs olan bireylerin çiftleri için soru puanlarının korelasyonu düşük karşılaştırdık puanları (nerede olduğunu aldatma olasılıklarının kaba bir endeksi). Örneğin, bireyleri ve ardından birbirlerinin ardışık çiftlerinin soru puanları arasındaki korelasyonu . Ayrıca ortalama bireyler için puan ilintileme çizimini çalıştı değerleri daha yüksek olmuştur, arasında bir dağılım , bir işlevi olarak . Her iki yaklaşım için bariz bir kalıp yok.
GÜNCELLEŞTİRME:
@SheldonCooper ve @ whuber'ın beni işaret ettiği yardımcı Freakonomics makalesinden fikirleri birleştirdim . Diğer fikirler / yorumlar / eleştiriler kabul edilir.
'nin kişi ' in sorusu üzerindeki ikili puanı olmasına izin verin . Öğe yanıt modeli tahmin edin burada , öğenin kolaylık parametresidir ve gizli bir yetenek değişkenidir. (Daha karmaşık bir model ikame edilebilir; uygulamamda 2PL kullanıyorum). İlk gönderimde de belirttiğim gibi , yetenek değişkeninin değerini ayrı bir veri kümesinden (farklı öğeler, aynı kişiler) Hile yapmak mümkün , ampiriktir Bayes, yukarıdaki ile aynı madde cevap modelinden tahmin eder.
Gözlemlenen puanın , madde kolaylığına ve kişi kabiliyetine bağlı olma olasılığı, burada tahmin edilen olasılıktır doğru bir cevap ve ters . Daha sonra, madde ve kişi özelliklerine bağlı olarak, gözlemlerine olduğu müşterek olasılık , ve benzer şekilde, öğesinde gözlemlenen müşterek olasılık. p i j = p r ( X ı j = x i j | ^ β i , ^ q j ) = P ı j ( ^ β i , ^ q j ) X i j ( 1 - P ı j ( ^ β i , ^ q j ) ) 1 - x
Çalıştığım ek bir adım en az olası kişilerin% r'ini almak (yani, sıralanan p_j değerlerinin en az% r'si olan kişiler), gözlemlenen puanları x_j arasındaki ortalama mesafeyi hesaplamak (ki bu düşük r olan kişilerle ilişkilendirilmelidir) olası dolandırıcılardır) ve r = 0.001, 0.002, ..., 1.000. Ortalama mesafe r = 0.001 ila r = 0.025 arasında artar, maksimuma ulaşır ve daha sonra r = 1'de yavaşça minimumda düşer.