Öğrenci belgelerinin notlandırılmasında farklı cömertlik düzeylerine sahip belirteçlerin etkileriyle en iyi nasıl başa çıkabilirim?


13

Yaklaşık 600 öğrencinin, iyi bir güvenilirlik / geçerliliğe sahip olduğu varsayılabilen kapsamlı bir değerlendirme parçası üzerinde bir puanı vardır. Değerlendirme 100 üzerinden değerlendirilir ve bilgisayar tarafından işaretlenmiş çoktan seçmeli bir testtir.

Bu 600 öğrencinin ikinci, küçük bir değerlendirme parçasında da puanları vardır. Bu ikinci değerlendirmede, 11 farklı sınıflayıcıyla 11 gruba ayrılırlar ve sınıflayıcılar arasında işaretleme veya cömertlik bakımından 'cömertlikleri' açısından istenmeyen büyük ölçüde bir çeşitlilik vardır. Bu ikinci değerlendirme 100 üzerinden de puanlanmıştır.

Öğrenciler rastgele kohortlara atanmadılar ve kohortlar arasındaki beceri düzeylerinde farklılık beklemek için iyi nedenler var.

İkinci ödevdeki kohort belirteçleri arasındaki farklılıkların bireysel öğrencilere maddi olarak avantajlı / dezavantajlı olmamasını sağlama görevim var.

Benim fikrim, kohortlardaki bireysel farklılıkları korurken, ikinci değerlendirmede kohort puanlarını birinci kohort puanlarına uymaktır. İki görevdeki performansın yüksek derecede ilişkili olacağına inanmak için iyi nedenlerim olduğunu varsaymalıyız, ancak belirteçler cömertliklerinde önemli ölçüde farklıdır.

Bu en iyi yaklaşım mı? Değilse, nedir?

Yanıtlayıcının, R veya SPSS veya Excel'de iyi bir çözümün nasıl uygulanacağı hakkında bazı pratik ipuçları vermesi çok takdir edilecektir.


3
Harika bir soru! Çoktan seçmeli ve deneme bölümleri için nihai puanlar karşılaştırılabilir mi (yani aynı sayısal aralıklar)?
gung - Monica'yı eski

2
Bu soruyu yazarken, senin sokağın üstünde olabileceğini düşündüm! Final skorları genel olarak karşılaştırılabilir, ancak biraz farklıdır. Çoktan seçmeli bölümündeki ortalama 6. etrafında bir SD ile ~ 85 15. etrafında bir SD ile ~ 70 diğer bölümündeki ortalama olmasıdır
user1205901 - Eski Monica

7
Bu problemi yalnızca tanımladığınız verilere dayanarak çözmek için herhangi bir çabadan şüpheliyim, çünkü kohort ve iki ayrı test cihazında performans arasında bir etkileşim olmadığı güçlü (ve denenemez) varsayımına dayanmak zorunda kalacaktı. Mümkünse, derecelendiricileri kalibre etmek için ayrı bir küçük deneme yapma seçeneğini düşünün.
whuber

9
Sorunun nerede olduğunu daha iyi görmek için (varsayımsal olarak) (1) iki değerlendirme biçiminin çoktan seçmeli ve deneme olduğunu ve (2) büyük öğrencilerinizin deneme soruları üzerinde nispeten daha iyi yapma eğiliminde olduklarını varsayalım. Verilerinizi puanları "cohere" yapmak için kullandığınızda, greyder etkilerini yaş efektleriyle karıştırırsınız ve ayarlamalar yaparak , daha büyük öğrencilere göre sistematik olarak dezavantajlı olursunuz . Ne kadar karmaşık bir algoritma seçerseniz seçin, sadece bu temel problemi çözebilir. Bu karıştırmayı çözmek için bazı ek verilere ihtiyacınız var .
whuber

3
Dikkate alınması gereken bir şey, ayarlama prosedürünü öğrencilere veya diğer paydaşlara ne kadar rahat açıklayacağınızdır: Birçoğu, işaretlemeyle ilgili potansiyel bir sorun verildiğinde, işaretleyicilerin uygun bir kalibrasyonuna biraz çaba sarf etmenin, sınav önemli bir sınav.
Scortchi - Monica'yı eski durumuna döndürün

Yanıtlar:


8

Greyder nasıl farklı bilerek notları telafi etmek ne söylemez hala iyidir, ama için . Basitlik için sadece iki sınıf öğrencisi düşünün. Sınıf 1'in tutarlı bir şekilde sınıf 2'den 5 puan daha cömert olduğu sonucuna varsak da, her biri 70 sınıf, biri sınıf 1 ve sınıf 1 ile 2 olan iki öğrenci ile ne yapacağınızı söylemez. sert bir işaretleyiciydi ve 70'den 75'e yükseltirken greyder 1 ile işaretlenmiş 70'i değişmeden mi korudunuz? Yoksa sınıf 1'in aşırı derecede yumuşak olduğunu, öğrencisini 65 markaya indirdiğini ve sınıf 2'nin 70'ini değiştirmediğini mi varsayıyoruz? Ortalama 11 öğrenciye dayanarak, davanıza kadar uzanan yarı yolda uzlaşıyor muyuz? Önemli olan mutlak notlar, bu yüzden göreceli cömertliği bilmek yeterli değil.

Sonuç, nihai mutlak işaretin nasıl olması gerektiğini hissettiğinize bağlı olabilir. Zihinsel bir model, her öğrenciye "doğru" notu önermek olacaktır - her bir makaleyi ayrı ayrı işaretlemek için zamanları olsaydı Baş Değerlendirici tarafından verilecek not - gözlemlenen notların yaklaşık olduğu. Bu modelde, gözlemlenen notların, gözlemlenmeyen "gerçek" notlarına mümkün olduğunca yakın olabilmeleri için sınıflayıcıları için telafi edilmesi gerekir. Başka bir model, tüm derecelendirmenin öznel olması olabilir ve gözlemlenen her notu, tüm derecelendiriciler aynı belgeyi ele alıp bir tür uzlaşma veya ortalama sınıfa ulaşmış olsaydı, verileceğini tahmin ettiğimiz işarete dönüştürmeye çalışırız. Öznellik kabulü daha gerçekçi olsa bile ikinci modeli bir çözüm olarak daha az ikna edici buluyorum. Eğitim ortamında, öğrencilerin "hak ettikleri notu" almasını sağlamak için genellikle değerlendirme için nihai sorumluluk taşıyan biri vardır, ancak bu öncü rol, zaten zaten anlaşamadığını bildiğimiz sınıf öğrencilerinin sorumluluğunu tamamen ortadan kaldırmıştır. Burada, sanırım oradaolduğunu biz tahmin etmek amacı bu bir "doğru" notu, ancak bu, tartışmasız bir önermedir ve şartlara uygun olmayabilir.

Diyelim ki A, B, C ve D öğrencilerinin hepsi aynı kohortta "75", sırasıyla 75, 80, 85 ve 90 olarak derecelendirilmelidir, ancak cömert derecelendiricileri tutarlı bir şekilde 5 puanı çok yüksek işaretler. 80, 85, 90 ve 95'i gözlemliyoruz ve 5'i çıkarmalıyız, ancak çıkarılacak rakamı bulmak sorunludur. Kohortlar arasındaki sonuçları karşılaştırarak yapılamaz çünkü kohortların ortalama yeteneklerde değişmesini bekliyoruz. Bir olasılık, ikinci ödevdeki doğru puanları tahmin etmek için çoktan seçmeli test sonuçlarını kullanmaktır, daha sonra bunu her bir sınıflayıcı ve doğru notlar arasındaki değişimi değerlendirmek için kullanın. Ancak bu tahminin yapılması önemsiz değildir - iki değerlendirme arasında farklı ortalama ve standart sapma bekliyorsanız, ikinci değerlendirme notlarının birinciyle eşleşmesi gerektiğini varsayamazsınız.

Ayrıca, öğrenciler çoktan seçmeli ve yazılı değerlendirmelerde göreceli olarak farklılık gösterir. Bunu, öğrencinin "gözlemlenen" ve "gerçek" notlarının bir bileşenini oluşturan ancak "tahmin edilen" notları tarafından yakalanmayan bir tür rastgele etki olarak ele alabilirsiniz. Kohortlar sistematik olarak farklıysa ve bir kohorttaki öğrenciler benzerse, bu etkinin her kohortta sıfıra çıkmasını beklememeliyiz. Bir grubun gözlemlenen notları tahmin edilenlere göre ortalama +5 ise, bu imkansızdırbunun cömert bir noterden mi, özellikle çoktan seçmeli olmaktan ziyade yazılı değerlendirmeye daha uygun bir kohorttan mı yoksa ikisinin bir kombinasyonundan mı kaynaklandığını belirlemek. Aşırı bir durumda, kohort ikinci değerlendirmede daha düşük bir yeteneğe sahip olabilir, ancak bunu çok cömert bir derecelendirici tarafından telafi edilenden daha fazlasına sahip olabilir - veya tam tersi. Bunu parçalayamazsın. Şaşkın.

Verileriniz için böylesine basit bir katkı modelinin yeterliliğinden de şüpheliyim. Sınıfçılar sadece yer değiştirmeyle değil, aynı zamanda yayılarak da Baş Değerlendiriciden farklı olabilirler - ancak kohortlar homojenlik açısından büyük olasılıkla değiştiğinden, bunu tespit etmek için her kohorttaki gözlemlenen derecelerin yayılmasını kontrol edemezsiniz. Dahası, dağıtımın büyük çoğunluğu, teorik maksimum 100'e yakın, yüksek puanlara sahiptir. Bu, maksimuma yakın sıkıştırma nedeniyle doğrusal olmayan bir giriş yapmayı öngörürüm - çok cömert bir sınıflayıcı A, B, C ve D işaretleri verebilir 85, 90, 94, 97. Tersine çevirmek sadece bir sabiti çıkarmaktan daha zordur. Daha da kötüsü, "kırpma" görebilirsiniz - aşırı cömert bir sınıf öğrencisi onları 90, 95, 100, 100 olarak derecelendirebilir. Bu imkansıztersine çevirir ve C ve D'nin nispi performansı hakkındaki bilgiler geri döndürülemez şekilde kaybolur.

Dereceleriniz çok farklı davranıyor. Değerlendirmenin çeşitli bileşenlerindeki cömertliklerinden ziyade sadece genel cömertliklerinde farklılık gösterdiğinden emin misiniz? Bu, çeşitli komplikasyonlar ortaya çıkarabileceğinden, kontrol edilmeye değer olabilir - örneğin, B için gözlenen sınıf, A'nınkinden daha kötü olabilir, ancak B, her bir bileşen için derecelendiricinin tahsis edilen işaretleri monoton olarak artan bir işlev olsa bile, 5 puan "daha iyi" olmasına rağmen Baş Değerlendiricinin! Değerlendirmenin Q1 (A skor 30/50, B 45/50) ve Q2 (A skor 45/50, B 35/50 arasında) bölündüğünü varsayalım. Sınıflandırıcının ilk çeyrekte çok yumuşak olduğunu (gözlemlenen kaliteler: A 40/50, B 50/50) ama ikinci çeyrekte sert olduğunu (gözlemlenen: A 42/50, 30/50) düşünün, sonra A için 80 ve için 80 B. Bileşen puanlarını dikkate almanız gerekiyorsa,

Muhtemelen bu, sorunun orijinal sınırları içinde belirli bir çözüm önermediği için bir cevaptan ziyade genişletilmiş bir yorumdur. Ancak sınıf öğrencileriniz zaten her biri yaklaşık 55 kağıt kullanıyorsa, kalibrasyon amacıyla beş veya on taneye daha fazla bakmak zorunda kalıyorlar mı? Zaten öğrencilerin yetenekleri hakkında iyi bir fikriniz var, bu yüzden notların hemen karşısında bir kağıt örneği seçebilirsiniz. Daha sonra tüm test boyunca veya her bileşende greyder cömertliğini telafi etmeniz gerekip gerekmediğini ve bunu sadece bir sabit ekleyerek / çıkararak veya enterpolasyon gibi daha karmaşık bir şeyle (örneğin, 100'e yakın doğrusallık). Ancak enterpolasyon hakkında bir uyarı: Başsavcı'nın beş örnek bildiriyi 70, 75, 80, 85 ve 90 olarak işaretlediğini varsayalım, bir sınıf öğrencisi onları 80, 88, 84, 93 ve 96 olarak işaretlerken düzen ile ilgili bazı anlaşmazlıklar vardır. Muhtemelen 96 ila 100 arasındaki gözlemlenen dereceleri 90 ila 100 aralığında ve 93 ila 96 arasındaki dereceleri 85 ila 90 aralığında eşlemek istersiniz. Ancak bunun altındaki işaretler için biraz düşünmek gerekir. Belki de 84 ila 93 arasında gözlenen dereceler 75 ila 85 aralığına eşleştirilmelidir? Bir alternatif, "gözlenen dereceden" "öngörülen gerçek dereceye" yönelik bir formül elde etmek için (muhtemelen polinom) bir regresyon olabilir. Belki de 84 ila 93 arasında gözlenen dereceler 75 ila 85 aralığına eşleştirilmelidir? Bir alternatif, "gözlenen dereceden" "öngörülen gerçek dereceye" yönelik bir formül elde etmek için (muhtemelen polinom) bir regresyon olabilir. Belki de 84 ila 93 arasında gözlenen dereceler 75 ila 85 aralığına eşleştirilmelidir? Bir alternatif, "gözlenen dereceden" "öngörülen gerçek dereceye" yönelik bir formül elde etmek için (muhtemelen polinom) bir regresyon olabilir.


1
Maalesef değerlendirme 2'nin doğası, sınıf öğrencilerinin kalibrasyon amacıyla daha fazla bakmasını imkansız kılmaktadır. Bunu, bir kez kayıt olmadan yapılan ve hemen sonra değerlendirilen sözlü şiir okunuşu gibi düşünebilirsiniz. Yeni kalibrasyonların yalnızca kalibrasyon amacıyla programlanması pratik değildir. Diğer sorunuza cevap vermek için, Değerlendirme 2'nin gerçekten açık alt bileşenleri yoktu ve bileşen puanlarını dikkate almamız gerekmiyor.
user1205901 - Monica'yı eski haline getir

1
Bu "bir cevap değil" ama ideal bir dünyada işleri tersine çevirmeyi ve bir örnek olarak (muhtemelen gerçek öğrencilerden ziyade sınıf sınırlarında olmak üzere tasarlanmış yapay ödevlerden) örnek bir örnek olarak kullanmayı önerirdim derecelendiriciler ve cömertliklerini telafi etmek yerine, aynı cömertliğe sahip olurlar. Değerlendirmeler yapılırsa, bu sizin için kesinlikle bir çözüm değildir.
Silverfish

1
(+1) Çok kapsamlı "bir cevap değil". Oldukça öznel testlerde tutarlılık genellikle derecelendirme görevini bileşenlere bölerek büyük ölçüde geliştirilebilir - aksi takdirde bir derecelendirici ritime daha fazla, diğeri projeksiyona daha fazla ağırlık verebilir ve c.
Scortchi - Monica'yı eski durumuna döndürün

Nihayetinde soruna karar verecek kişiye olası bir düzeltme sunmanın yanı sıra, ayarlamanın artıları ve eksileri hakkında da bazı açıklamalar yapmam gerekeceği açıktır. Yanıtınız bununla ilgili birçok yararlı materyal sunmaktadır. Ancak, her şeyi yalnız bırakmanın veya bir değişiklik yapmanın daha faydalı olup olmadığına karar vermek için hangi kriterleri kullanabileceğimi merak ediyorum. Kohort derecelerine bakıyorum ve sezgim, belirteçler arasındaki farkların büyük bir etkisi olduğunu söylüyor. Sezgi güvenilmez, ancak bu durumda başka neler yapabileceğimden emin değilim.
user1205901 - Monica

2
Bir soru, "sınıfsal cömertlik" etkisine kıyasla, özellikle bir kohort üzerinden ortalama alındığında, "diferansiyel görev yeteneği" etkisinin küçük olduğuna inanmak için makul nedenlerinizin olup olmadığıdır. Eğer öyleyse, her bir kohort için cömertlik etkisini tahmin etmeye çalışabilirsiniz - ama karışıklık riskiyle karşı karşıya kalırsınız. Dahası, bir Catch 22 vardır . Gözlemlenen derecelere büyük "düzeltmeler" uygulamak konusunda çok dikkatli olurum . Ancak önerilen düzeltmeler küçükse, sınıflayıcı cömertlikten ziyade, kohortlar arasındaki diferansiyel görev yeteneğindeki sistematik farklılıklardan kaynaklanması mantıklıdır.
Silverfish

2

Çok basit bir model:

Let adayın puanı olmak testinde 1 ve testi 2. Bir onun puanı orijinal kohortlarda öğrencilerin bölüm olacak.s1,iis2,iA1,,Ap

Her grup öğrencilerinin gücü ve sınıf öğrencisinin kolaylığı ile önyargılıdır. Bunun bir katkı etkisi olduğu varsayılarak, şu şekilde geri alınır: ilk testteki kohortun ortalama puanını çıkarırız ve ikinci testteki kohortun ortalama puanını ekleriz.

gibi ayarlanmış bir puanıs1

jp,iAj,s1,i=s1,i1|Aj|iAj(s1,is2,i)

Son olarak, nihai bir skor oluşturmak Eğer uygun düzgün bulmak ağırlıklandırma hangisi iles

i,si=αs1,i+(1α)s2,i

Dezavantajı, kohortundaki insanlar ikinci testte şanssız kaldığında bireysel bir öğrencinin cezalandırılabileceğidir. Ancak herhangi bir istatistiksel teknik, bu potansiyel olarak adil olmayan dezavantajı taşıyacaktır.


3
Diğer tüm önerilerde olduğu gibi, bu da derecelendirici etkisini grup etkisinden ayırt edememenin doğasında var olan adaletsizlikten muzdarip olacaktır. Bunun etrafında bir yol yok. En azından sizin prosedürünüz, keyfi doğasını açık hale getirerek ( seçiminde ) önerilen diğerlerinden biraz daha şeffaftır . α
whuber

1
Hayır - gruplar rastgele seçilmiyor.
Scortchi - Monica'yı eski durumuna döndürün

1
... @whuber'ın söylediği gibi, kohortun (yaş veya herhangi bir şeyden dolayı) bir test türünde diğerinden daha iyi bir şekilde daha iyi yapma eğilimi ile karıştırılması.
Scortchi - Monica'yı eski durumuna döndürün

2
Daha büyük kohortlar alarak karıştırmayı ortadan kaldıramazsınız! En iyi ihtimalle yorumlanamayan değerlerin daha kesin tahminlerini bulabilirsiniz.
whuber

3
Makul, belki de: ama OP için mevcut olan bilgiler göz önüne alındığında bu tartışılmaz. Cevabınızın geçerliliği bu örtük varsayımın gerçeğine dayanır. Daha da kötüsü, olumsuzluğu (elbette test edilemez) da oldukça makul: kohortlar kendi kendine seçildikleri için, farklı değerlendirme araçlarında ortak şekillerde performans gösteren insanlardan oluşabilir ve bu da aslında farklı başarıların muhtemel olabileceğini düşündürür. kısmen kohorttan ve sadece kısmen sınıflar arasındaki değişkenlikten kaynaklanacaktır.
whuber

1

Yapamazsın. En azından ek veri toplamadan değil. Nedenini görmek için, bu başlık boyunca @ whuber'ın sayısız yorumunu okuyun.


0

Düzenle

Bu cevapta çözülen sorun, sevmedikleri öğrencilere daha az puan veren derecelendiriciler bulmaktır.

Orijinal yayın

Kolay uygulanabileceğini düşündüğüm yaklaşımım şöyle olacaktır:

Let sınıf öğrencisi belirtmek kohort ait kμk,ikiyk,i

1

Modeli varsay

yk,i=μk,i+α+τek,iααiα

2

Giiy~k,i

yk,iμk,iα=y~k,i=Gi+σie~k,i

Ve 11 ayrı tahminini yapın Gσ

3

Şimdi olağandışı bir gözlem, miktarın

T=|y~Giσi|

Not

eT

R-kod

Aşağıda R kodudur. Durumunuzda, hem mu hem de y verileceğini unutmayın, böylece rnorm-sayıları atandıklarında oluşturma satırları yok sayılmalıdır. Ben komut dosyası veri olmadan değerlendirmek için onları dahil.

mu_0 <- 50; 
alpha <- 5;
tau<- 10; 
# 0 Generate data for first assignment
mu <- matrix(rnorm(605, mu_0, tau), 11) 

# 1 Generate data for second assignment and estimate alpha
G <- rnorm(11, 0)*10;
for(i in 1:11){
    y[i,] <- rnorm(55, 0, sigma) + mu[i,] + alpha + G[i];
}

alpha_hat <- mean(y-mu)
alpha_hat

# 2 Form \tilde{y} and find unsual observations
ytilde <- y - mu - alpha_hat
T <- matrix(0, 11, 55);
for(i in 1:11){
    G_hat <- mean(ytilde[i,]);
    sigma_hat <- sd(ytilde[i,]);
    T[i,] <- order(abs(ytilde[i,] - G_hat)/sigma_hat)
}
# 3 Look at grader number 2 by
T[2,]

4
Soruyu cevaplamış görünmüyorsunuz: yalnızca "olağandışı gözlemleri" araştırmak için bir öneride bulunuyorsunuz. Bu sorunu nasıl çözer?
whuber

Soruyu tekrar okuduğumda, belki de "bireysel" kısma çok fazla odaklandım. Bu cevapta çözülen problem, daha çok sevmedikleri öğrencilere daha az puan veren derecelendiriciler bulmaktır. Orijinal sorunun çözülmesi imkansızdır (!). Daha önce de belirtildiği gibi, öğrencilerin her bir kohortta işbirliği yapmaları veya başka şekilde güçlü bir şekilde korelasyon göstermeleri çok olasıdır.
Hunaphu

0

Sorunun yeniden hazırlanması: Delege Edilmiş Markerlerin kalitatif değerlendirme aralığı nedeniyle ikinci bölümün daha fazla belirsizliğe maruz kalmasını gerektiren koşullarla iki bölümlü bir sınavı belirlemeye en iyi yaklaşım.

Nerede: Master Tester = sınavdan sorumlu kişi Temsilci Tester = sınavın 2. bölümünü işaretlemek için atanan kişi (1/1) Öğrenci = bir sınava girmenin eğlencesini kazanan kişi

Hedefler şunlardır: A) Öğrenciler çalışmalarını yansıtan bir not alırlar B) İkinci Kısmın belirsizliğini Ana Test Cihazının amacına uygun olacak şekilde yönetin

Önerilen yaklaşım (cevap): 1. Master Tester rastgele bir temsili örnek sınav seti seçer, # 2 parçasını işaretler ve # 1 kısmı ile korelasyon geliştirir 2. Delege Edilmiş Markör verilerinin tümünü (Part # 1) değerlendirmek için korelasyonu kullanın vs # 2 skoru) 3. Korelasyonun Master Test Cihazından önemli ölçüde farklı olduğu durumlarda - Master Test Cihazının kabul edilebilirliğinin önemi - sonucu yeniden atamak için sınavı Master Test Cihazı olarak inceleyin.

Bu yaklaşım Ana Test Cihazının korelasyon ve kabul edilebilir önemden sorumlu olmasını sağlar. Korelasyon, # 1 ile # 2 arasındaki puan ya da test # 1 ile # 2 arasındaki sorular için göreli puanlar kadar basit olabilir.

Ana Test Cihazı ayrıca korelasyonun "lastikliği" temel alarak Bölüm 2 için bir sonuç kalitesi ayarlayabilecektir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.