Greyder nasıl farklı bilerek notları telafi etmek ne söylemez hala iyidir, ama için . Basitlik için sadece iki sınıf öğrencisi düşünün. Sınıf 1'in tutarlı bir şekilde sınıf 2'den 5 puan daha cömert olduğu sonucuna varsak da, her biri 70 sınıf, biri sınıf 1 ve sınıf 1 ile 2 olan iki öğrenci ile ne yapacağınızı söylemez. sert bir işaretleyiciydi ve 70'den 75'e yükseltirken greyder 1 ile işaretlenmiş 70'i değişmeden mi korudunuz? Yoksa sınıf 1'in aşırı derecede yumuşak olduğunu, öğrencisini 65 markaya indirdiğini ve sınıf 2'nin 70'ini değiştirmediğini mi varsayıyoruz? Ortalama 11 öğrenciye dayanarak, davanıza kadar uzanan yarı yolda uzlaşıyor muyuz? Önemli olan mutlak notlar, bu yüzden göreceli cömertliği bilmek yeterli değil.
Sonuç, nihai mutlak işaretin nasıl olması gerektiğini hissettiğinize bağlı olabilir. Zihinsel bir model, her öğrenciye "doğru" notu önermek olacaktır - her bir makaleyi ayrı ayrı işaretlemek için zamanları olsaydı Baş Değerlendirici tarafından verilecek not - gözlemlenen notların yaklaşık olduğu. Bu modelde, gözlemlenen notların, gözlemlenmeyen "gerçek" notlarına mümkün olduğunca yakın olabilmeleri için sınıflayıcıları için telafi edilmesi gerekir. Başka bir model, tüm derecelendirmenin öznel olması olabilir ve gözlemlenen her notu, tüm derecelendiriciler aynı belgeyi ele alıp bir tür uzlaşma veya ortalama sınıfa ulaşmış olsaydı, verileceğini tahmin ettiğimiz işarete dönüştürmeye çalışırız. Öznellik kabulü daha gerçekçi olsa bile ikinci modeli bir çözüm olarak daha az ikna edici buluyorum. Eğitim ortamında, öğrencilerin "hak ettikleri notu" almasını sağlamak için genellikle değerlendirme için nihai sorumluluk taşıyan biri vardır, ancak bu öncü rol, zaten zaten anlaşamadığını bildiğimiz sınıf öğrencilerinin sorumluluğunu tamamen ortadan kaldırmıştır. Burada, sanırım oradaolduğunu biz tahmin etmek amacı bu bir "doğru" notu, ancak bu, tartışmasız bir önermedir ve şartlara uygun olmayabilir.
Diyelim ki A, B, C ve D öğrencilerinin hepsi aynı kohortta "75", sırasıyla 75, 80, 85 ve 90 olarak derecelendirilmelidir, ancak cömert derecelendiricileri tutarlı bir şekilde 5 puanı çok yüksek işaretler. 80, 85, 90 ve 95'i gözlemliyoruz ve 5'i çıkarmalıyız, ancak çıkarılacak rakamı bulmak sorunludur. Kohortlar arasındaki sonuçları karşılaştırarak yapılamaz çünkü kohortların ortalama yeteneklerde değişmesini bekliyoruz. Bir olasılık, ikinci ödevdeki doğru puanları tahmin etmek için çoktan seçmeli test sonuçlarını kullanmaktır, daha sonra bunu her bir sınıflayıcı ve doğru notlar arasındaki değişimi değerlendirmek için kullanın. Ancak bu tahminin yapılması önemsiz değildir - iki değerlendirme arasında farklı ortalama ve standart sapma bekliyorsanız, ikinci değerlendirme notlarının birinciyle eşleşmesi gerektiğini varsayamazsınız.
Ayrıca, öğrenciler çoktan seçmeli ve yazılı değerlendirmelerde göreceli olarak farklılık gösterir. Bunu, öğrencinin "gözlemlenen" ve "gerçek" notlarının bir bileşenini oluşturan ancak "tahmin edilen" notları tarafından yakalanmayan bir tür rastgele etki olarak ele alabilirsiniz. Kohortlar sistematik olarak farklıysa ve bir kohorttaki öğrenciler benzerse, bu etkinin her kohortta sıfıra çıkmasını beklememeliyiz. Bir grubun gözlemlenen notları tahmin edilenlere göre ortalama +5 ise, bu imkansızdırbunun cömert bir noterden mi, özellikle çoktan seçmeli olmaktan ziyade yazılı değerlendirmeye daha uygun bir kohorttan mı yoksa ikisinin bir kombinasyonundan mı kaynaklandığını belirlemek. Aşırı bir durumda, kohort ikinci değerlendirmede daha düşük bir yeteneğe sahip olabilir, ancak bunu çok cömert bir derecelendirici tarafından telafi edilenden daha fazlasına sahip olabilir - veya tam tersi. Bunu parçalayamazsın. Şaşkın.
Verileriniz için böylesine basit bir katkı modelinin yeterliliğinden de şüpheliyim. Sınıfçılar sadece yer değiştirmeyle değil, aynı zamanda yayılarak da Baş Değerlendiriciden farklı olabilirler - ancak kohortlar homojenlik açısından büyük olasılıkla değiştiğinden, bunu tespit etmek için her kohorttaki gözlemlenen derecelerin yayılmasını kontrol edemezsiniz. Dahası, dağıtımın büyük çoğunluğu, teorik maksimum 100'e yakın, yüksek puanlara sahiptir. Bu, maksimuma yakın sıkıştırma nedeniyle doğrusal olmayan bir giriş yapmayı öngörürüm - çok cömert bir sınıflayıcı A, B, C ve D işaretleri verebilir 85, 90, 94, 97. Tersine çevirmek sadece bir sabiti çıkarmaktan daha zordur. Daha da kötüsü, "kırpma" görebilirsiniz - aşırı cömert bir sınıf öğrencisi onları 90, 95, 100, 100 olarak derecelendirebilir. Bu imkansıztersine çevirir ve C ve D'nin nispi performansı hakkındaki bilgiler geri döndürülemez şekilde kaybolur.
Dereceleriniz çok farklı davranıyor. Değerlendirmenin çeşitli bileşenlerindeki cömertliklerinden ziyade sadece genel cömertliklerinde farklılık gösterdiğinden emin misiniz? Bu, çeşitli komplikasyonlar ortaya çıkarabileceğinden, kontrol edilmeye değer olabilir - örneğin, B için gözlenen sınıf, A'nınkinden daha kötü olabilir, ancak B, her bir bileşen için derecelendiricinin tahsis edilen işaretleri monoton olarak artan bir işlev olsa bile, 5 puan "daha iyi" olmasına rağmen Baş Değerlendiricinin! Değerlendirmenin Q1 (A skor 30/50, B 45/50) ve Q2 (A skor 45/50, B 35/50 arasında) bölündüğünü varsayalım. Sınıflandırıcının ilk çeyrekte çok yumuşak olduğunu (gözlemlenen kaliteler: A 40/50, B 50/50) ama ikinci çeyrekte sert olduğunu (gözlemlenen: A 42/50, 30/50) düşünün, sonra A için 80 ve için 80 B. Bileşen puanlarını dikkate almanız gerekiyorsa,
Muhtemelen bu, sorunun orijinal sınırları içinde belirli bir çözüm önermediği için bir cevaptan ziyade genişletilmiş bir yorumdur. Ancak sınıf öğrencileriniz zaten her biri yaklaşık 55 kağıt kullanıyorsa, kalibrasyon amacıyla beş veya on taneye daha fazla bakmak zorunda kalıyorlar mı? Zaten öğrencilerin yetenekleri hakkında iyi bir fikriniz var, bu yüzden notların hemen karşısında bir kağıt örneği seçebilirsiniz. Daha sonra tüm test boyunca veya her bileşende greyder cömertliğini telafi etmeniz gerekip gerekmediğini ve bunu sadece bir sabit ekleyerek / çıkararak veya enterpolasyon gibi daha karmaşık bir şeyle (örneğin, 100'e yakın doğrusallık). Ancak enterpolasyon hakkında bir uyarı: Başsavcı'nın beş örnek bildiriyi 70, 75, 80, 85 ve 90 olarak işaretlediğini varsayalım, bir sınıf öğrencisi onları 80, 88, 84, 93 ve 96 olarak işaretlerken düzen ile ilgili bazı anlaşmazlıklar vardır. Muhtemelen 96 ila 100 arasındaki gözlemlenen dereceleri 90 ila 100 aralığında ve 93 ila 96 arasındaki dereceleri 85 ila 90 aralığında eşlemek istersiniz. Ancak bunun altındaki işaretler için biraz düşünmek gerekir. Belki de 84 ila 93 arasında gözlenen dereceler 75 ila 85 aralığına eşleştirilmelidir? Bir alternatif, "gözlenen dereceden" "öngörülen gerçek dereceye" yönelik bir formül elde etmek için (muhtemelen polinom) bir regresyon olabilir. Belki de 84 ila 93 arasında gözlenen dereceler 75 ila 85 aralığına eşleştirilmelidir? Bir alternatif, "gözlenen dereceden" "öngörülen gerçek dereceye" yönelik bir formül elde etmek için (muhtemelen polinom) bir regresyon olabilir. Belki de 84 ila 93 arasında gözlenen dereceler 75 ila 85 aralığına eşleştirilmelidir? Bir alternatif, "gözlenen dereceden" "öngörülen gerçek dereceye" yönelik bir formül elde etmek için (muhtemelen polinom) bir regresyon olabilir.