Spearman-Brown kehanet formülü farklı zorluklarla ilgili sorulardan nasıl etkilenir?


10

Spearman-Brown kehanet formülünün sonuçları, farklı veya zor sınıflayıcı olan farklı zorluk veya puanlayıcıların test soruları ile nasıl etkilenir. Saygı duyulan bir metin SB'nin etkilendiğini, ancak ayrıntı vermediğini söylüyor. (Aşağıdaki alıntıya bakın.)

Guion, R.M (2011). Personel Kararları için Ölçme, Ölçme ve Tahmin, 2. baskı. Sayfa 477

"Güvenilirlik, Spearman-Brown denklemi kullanılarak havuz oluşturucularla artırılabilir. ... Tek bir derecelendirmenin güvenilirliği .50 ise, iki, dört veya altı paralel derecelendirmenin güvenilirliği yaklaşık .67, .80 olacaktır. ve sırasıyla 86, "(Houston, Raymond ve Svec, 1991, s. 409). Bu alıntıyı seviyorum, çünkü kelime yaklaşık olarak istatistiksel tahminlerin, her şey varsayıldığı şekilde giderse ne olacağına dair "ortalama" ifadeler olduğunu kabul ediyor. Bunun ötesinde, ameliyat kelimesi paraleldir. Bir değerlendirici, örneğin sistematik olarak yumuşaksa, ortalamaların (veya Spearman-Brown'un kullanılması) varsayımlara uymaması yeterlidir. Denemelerin her biri biri diğerinden daha yumuşak olan iki değerlendirici tarafından derecelendirilmişse, sorun eşit olmayan zorlukta (çok yönlü olmayan formlar) iki çoktan seçmeli test kullanmak gibidir. Farklı (karşılıksız) test formlarına dayanan puanlar karşılaştırılamaz. Bu yüzden yumuşak ve zor derecelendiricilerin karıştırılmasıyla; toplanan derecelendirmelerin güvenilirliği, klasik test teorisinin Spearman-Brown denklemi ile yanlış tahmin edilmiştir. Her yargıç bir yapıyı biraz farklı tanımlarsa, konular daha kötüdür. "


1
Güvenilir bir kaynak arayışındaki sorunun cevabının test teorisinden gelmesi ve altta yatan teoriyi ve özellikle güvenilirliği değerlendirme yeteneğimizin sınırlarını anlamanız açıktır. Bu yüzden Guion bunu açıklama zahmetine girmiyor. Ama yine de aramanızda iyi şanslar - belki birileri, bir yerlerde daha iyi bir açıklama biliyor.
Jeremy Miles

Yanıtlar:


10

Ben bir "saygı metni" in yanı sıra başka CV kullanıcıyı iki çelişen biraz süklüm püklüm hissediyorum rağmen, Spearman-Brown formülü olduğunu bana öyle geliyor değil zorluk farklı öğeleri içeren etkilenir. Elbette, Spearman-Brown formülü genellikle paralel öğelere sahip olduğumuz varsayımı altında türetilir , bu da (diğer şeylerin yanı sıra) öğelerin eşit zorlukta olduğunu ima eder. Ancak bu varsayımın gerekli olmadığı ortaya çıkıyor; eşitsiz zorluklara izin vermek için rahatlayabilir ve Spearman-Brown formülü hala geçerli olacaktır. Bunu aşağıda gösteriyorum.


Klasik test teorik olarak, bir ölçüm olduğunu hatırlayın bir "gerçek puan" bileşen toplamı olduğu varsayılır ve bir hata bileşeni olduğu, ile ve ilintisiz. Paralel kalemlerin varsayımı, tüm öğelerin eşit hatalara sahip olduğu varsayılmakla birlikte, yalnızca hata bileşenlerinde farklılık gösteren aynı gerçek puanlara sahip olmasıdır. Sembollerde, ve öğelerinin herhangi bir çifti için , XTE

X=T+E,
TEXX
T=Tvar(E)=var(E).
İlk varsayımı rahatlattığımızda neler olacağını görelim, böylece öğeler zorluklarında farklılık gösterebilir ve daha sonra bu yeni varsayımlar altında toplam test puanının güvenilirliğini elde edebiliriz. Özellikle, gerçek puanların bir katkı sabitiyle farklılık gösterebileceğini, ancak hataların hala aynı varyansa sahip olduğunu varsayın. Sembollerde, Zorluktaki herhangi bir fark katkı sabiti tarafından yakalanır. Örneğin, , daha sonra puanları ilgili puan daha yüksek olma eğilimi ve böylece, "daha kolay" bir . Bunlara esasen paralel diyebiliriz
T=T+cvar(E)=var(E).
c>0XXXXbenzer bir şekilde tau eşdeğeri modeli gevşeten "temel tau eşdeğerliği" varsayımına benzer şekilde.

Şimdi bu tür öğelerin bir test formunun güvenilirliğini elde etmek için. Toplamı test puanını veren temelde paralel kalemlerden oluşan bir testi düşünün . Güvenilirlik, tanım gereği, gerçek skor varyansının gözlemlenen skor varyansına oranıdır. Tek tek öğelerin güvenilirliği için, temel paralellik tanımından, , ile belirttiğimiz aynı güvenilirliğe sahip oldukları , gerçek puan varyansı ve hata varyansıdır. Toplam test puanının güvenilirliği için önce toplam test puanının varyansını inceliyoruz; kρ=σT2/(σT2+σE2)σT2σE2 Tσ 2 T σ 2 E k 2 σ 2 T

var(i=1kTi+Ei)=var(i=1kT+ci+Ei)=k2σT2+kσE2,
(herhangi bir simge) her ürün gerçek skorları, sabit bakımından ile kaydırılabilir olduğu rasgele doğru skor, olduğu gerçek puan varyansı ve hata varyansıdır. Sabit terimlerin ayrıldığına dikkat edin! Bu anahtar. Bu durumda toplam test puanının güvenilirliği TσT2σE2
k2σT2k2σT2+kσE2=kσT2kσT2+σX2σT2=kρ1+(k1)ρ,
sadece klasik Spearman-Brown formülü, değişmeden. Bu, ortalama puanları olarak tanımlanan öğelerin "zorluğunu" değiştirirken bile, Spearman-Brown formülünün hala geçerli olduğunu göstermektedir.

@JeremyMiles, "gerçek dünyada" test uzunluğunu artırdığımızda neler olabileceğiyle ilgili bazı ilginç ve önemli noktalar ortaya çıkarıyor, ancak en azından klasik test teorisinin idealleştirilmiş varsayımlarına göre, madde zorluğundaki değişiklikler, test formu (modern Öğe Yanıt Teorisinin varsayımlarına tam tersine!). Aynı temel akıl yürütme çizgisi, genellikle tau-denklik yerine temel tau-denklikten bahsettiğimiz için de önemlidir, çünkü önemli sonuçların çoğu, madde zorluklarının (yani araçların) farklı olabileceği daha yumuşak bir durum için geçerlidir.


2
Evet, iyi bir noktaya değindiniz. Yazdıklarım her zaman geçerli değil.
Jeremy Miles

5

Söylemesi kolay değil.

İlk olarak, Spearman-Brown, test öğelerinin (veya değerlendiricilerin), test öğelerinin (veya değerlendiricilerin) popülasyonundan rastgele örneklendiğini varsayar. Bu, özellikle testler için asla doğru değildir, çünkü daha fazla öğe oluşturmak zordur ve başlamak için daha iyi öğeleri kullanmanız muhtemeldir - o zaman testin daha uzun olması gerektiğini görürsünüz, böylece öğeler için 'namlu kazıyın'.

İkincisi, maddeler güvenilirliklerine göre değişir ve güvenilirlik mutlaka zorluk ile ilgili değildir (yardımcı olursa, madde yanıt teorisindeki madde karakteristik eğrisinin eğimini ve kesişmesini düşünün). Bununla birlikte, güvenilirliğin hesaplanması (örneğin, sınıf içi korelasyonun bir biçimi olan Cronbach alfa), güvenilirliklerin hepsinin eşit olduğunu varsayar (temel bir tau eşdeğeri ölçüm modeli olduğunu varsayar - yani, her bir öğenin standartlaştırılmamış güvenilirliklerinin hepsi eşit). Bu neredeyse kesinlikle yanlış. Öğe ekleme artabilir, azalabilir. Öğeleri bağlıdır.

İşte bunu düşünmenin başka bir yolu. Bir popülasyondan rastgele bir örnek seçer ve ortalamanın ortalama ve standart hatasını hesaplarım. Bu ortalama, nüfus ortalamasının tarafsız bir tahmincisi olacaktır. Sonra örneğimin boyutunu arttırıyorum - ortalamanın beklenen değeri aynı, ancak aslında aynı olması pek olası değil - neredeyse kesinlikle yukarı veya aşağı gidecek. Standart hatanın küçülmesini beklediğim gibi, ancak küçüleceği miktar tutarlı olmayacak (ve standart hatanın büyümesi imkansız değil.)


SB formülü, beklenen güvenilirlik için minimum, maksimum veya orta düzeyde bir değer veriyor mu? Ayrıca, güvenirlikler korelasyonlar açısından hesaplandığından, kolay / zor nesneler veya değerlendiriciler neden herhangi bir etkiye sahiptir?
Joel W.

SB formülü beklenen güvenilirliği sağlar. Bundan daha yüksek veya daha düşük olabilir. Bir sorun, güvenilirliği hesaplamanın birden fazla yolunun olması ve yaptıkları varsayımların nadiren karşılanmasıdır. Her şey klasik test teorisine dayanıyor - madde tepki teorisi ölçüm hakkında düşünmenin daha modern bir yoludur ve çoğu zaman daha mantıklıdır, örneğin, bir testin güvenilirliği her biri için aynı değildir IRT'de kişi.
Jeremy Miles

Bir soru çok zor veya çok kolaysa, korelasyonu etkileyebilir. Örneğin, "7 * 11" 3. sınıf için güvenilir bir soru olabilir, ancak matematik lisans öğrencileri için değil.
Jeremy Miles

1
<testin daha uzun olması gerekiyor, bu yüzden eşyalar için "namluyu kazıyın". Testleri bir araya getirirken gerçek bir dünya deneyiminiz olduğu açıktır.
Joel W.
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.