Normal (veya başka bir) dağılımda bir "kırılma" için resmi olarak test etme


10

Sosyal bilimlerde, bir şekilde dağıtılması gereken değişkenlerin, normal olarak, belirli noktalardaki dağılımlarında bir süreksizlikle sonuçlandığı sıklıkla görülür .

Örneğin, "başarılı / başarısız" gibi spesifik kesintiler varsa ve bu önlemler bozulmaya tabi ise, o noktada bir süreksizlik olabilir.

Önemli bir örnek (aşağıda belirtilmiştir) öğrenci standart test puanları normalde% 50-60 arasında çok az kütle ve% 60-65 civarında aşırı kütle olan% 60 hariç temelde her yere dağıtılır. Bu, öğretmenlerin kendi öğrenci sınavlarını not ettikleri durumlarda ortaya çıkar. Yazarlar öğretmenlerin öğrencilerin sınavları geçmesine gerçekten yardım edip etmediklerini araştırmaktadır.

Şüphesiz en ikna edici kanıt, farklı testler için farklı kesimler etrafında büyük bir süreksizlik ile bir çan eğrisinin grafiklerini göstermektir. Ancak, istatistiksel bir test geliştirmeye nasıl devam edersiniz? İnterpolasyonu denedikten sonra fraksiyonun üstündeki veya altındaki fraksiyonu ve ayrıca kesmenin 5 puan üstündeki ve altındaki fraksiyon üzerinde bir t-testi karşılaştırdılar. Mantıklı olsa da, bunlar geçici. Herkes daha iyi bir şey düşünebilir mi?

Link: Öğrenci ve Okulların Değerlendirilmesinde Kurallar ve Takdir: New York Regent Sınavı Örneği http://www.econ.berkeley.edu/~jmccrary/nys_regents_djmr_feb_23_2011.pdf

Test puanlarının dağılımı, siyahla manipüle edilebilir olanlar, kesimin altındaki yoğunluktaki keskin düşüşü ve yukarıdaki ilgili artışı not edin


Sadece açıklığa kavuşturmak için - örneğin Normallik gibi genel bir eksiklik veya önceden belirlenmiş bir noktada süreksizlik olup olmadığını test ediyor musunuz? Örneğiniz ikincisidir, ancak elbette herhangi bir uyum iyiliği testi, örn., Normality için Anderson-Darling veya Shapiro-Wilk hizmet edecektir, ancak oldukça spesifik bir alternatifle daha güçlü testler oluşturabilirsiniz. Ayrıca, yukarıdaki grafiğinizde açıkça binlerce örneğiniz var; bu da tipik olur mu?
jbowman

Yanıtlar:


6

Soruyu doğru şekilde çerçevelemek ve puanların yararlı bir kavramsal modelini benimsemek önemlidir.

Soru

55, 65 ve 85 gibi potansiyel hile eşikleri, verilerden bağımsız olarak a priori olarak bilinir : verilerden belirlenmeleri gerekmez. (Bu nedenle bu ne bir aykırı tespit problemi ne de bir dağıtım uydurma problemidir.) Test, bu eşiklerden biraz daha düşük bazı (hepsi değil) puanların bu eşiklere (veya belki de sadece bu eşiklerin üzerine) taşındığına dair kanıtları değerlendirmelidir.

Kavramsal model

Kavramsal model için, puanların normal bir dağılıma (veya kolayca parametreleştirilebilen başka bir dağılıma) sahip olmasının olası olmadığını anlamak çok önemlidir . Bu, yayınlanan örnekte ve orijinal rapordaki diğer tüm örneklerde bolca açıktır . Bu puanlar okulların bir karışımını temsil eder; herhangi bir okuldaki dağıtımlar normal olsa bile (öyle değiller), karışımın normal olması muhtemel değildir.

Basit bir yaklaşım, gerçek bir puan dağılımı olduğunu kabul eder: bu özel hile biçimi dışında rapor edilecek olan. Bu nedenle parametrik olmayan bir ayardır. Bu çok geniş görünüyor, ancak gerçek verilerde tahmin edilebilecek veya gözlemlenebilecek puan dağılımının bazı özellikleri var:

  1. , ve puanlarının sayısı yakından ilişkilidir, .i1ii+11i99

  2. Skor sayımının idealize edilmiş pürüzsüz bir versiyonunun etrafında bu sayımlarda farklılıklar olacaktır. Bu varyasyonlar tipik olarak sayımın kare köküne eşit bir boyutta olacaktır.

  3. Bir eşik göreli Hile herhangi puan için sayıları etkilemez . Etkisi, her puanın sayısıyla orantılıdır (hile yapması nedeniyle "risk altındaki" öğrenci sayısı). Bu eşiğin altındaki puanlar , sayısı bir miktar azaltılacak ve bu miktar eklenecektir .titic(i)δ(ti)c(i)t(i)

  4. Değişim miktarı, bir puan ile eşik arasındaki mesafe ile azalır: , değerinin azalan bir işlevidir .δ(i)i=1,2,

eşiği verildiğinde , sıfır hipotezi (hile yok) , aynı olduğunu ima eder . Alternatif .tδ(1)=0δ0δ(1)>0

Test oluşturma

Hangi test istatistiği kullanılacak? Bu varsayımlara göre, (a) etki sayımlarda toplanır ve (b) en büyük etki eşiğin etrafında gerçekleşir. Bu sayıların ilk farklılıklarına bakıldığında . Daha fazla dikkate ayrıca bir adım daha önerir: alternatif hipotez altında, biz puan olarak giderek depresif sayımların bir dizi görmek için beklemek eşik yaklaşımlar alttan, daha sonra (i) en büyük pozitif bir değişiklik , (ii) a, ardından büyük negatif değişiklik . Testin gücünü en üst düzeye çıkarmak için, ikinci farklılıklara bakalım ,i t t t + 1c(i)=c(i+1)c(i)ittt+1

c(i)=c(i+1)c(i)=c(i+2)2c(i+1)+c(i),

çünkü bu, büyük bir negatif düşüş ile büyük bir pozitif artış negatifini birleştirecek ve böylece hile etkisini artıracaktır. .i=t1c(t+1)c(t)c(t)c(t1)

Eşiğin yakınındaki sayıların seri korelasyonunun oldukça küçük olduğunu varsayıyorum - ve bu kontrol edilebilir -. (Başka bir yerde seri korelasyon önemsizdir.) Bu, varyansının yaklaşık olarakc(t1)=c(t+1)2c(t)+c(t1)

var(c(t1))var(c(t+1))+(2)2var(c(t))+var(c(t1)).

Daha önce tüm için (ayrıca kontrol edilebilen bir şey önermiştim . Neredenvar(c(i))c(i)i

z=c(t1)/c(t+1)+4c(t)+c(t1)

yaklaşık birim varyansa sahip olmalıdır. Büyük skor popülasyonları için (yayınlanan kişi yaklaşık 20.000 civarındadır), yaklaşık olarak normal bir dağılımı bekleyebiliriz . Hile modelini belirtmek için oldukça negatif bir değer beklediğimizden , standart Normal dağılımın cdf'si için : write boyutunda bir test kolayca elde edebiliriz , olduğunda eşiğinde hile yapılma hipotezini reddederiz .c(t1)αΦtΦ(z)<α

Misal

Örneğin, üç Normal dağılımın bir karışımından oluşturulan bu doğru test puanları setini düşünün :

Gerçek skorların histogramı

Buna tarafından tanımlanan eşiğinde bir hile programı uyguladım . Bu neredeyse tüm hile 65 veya hemen altında bir veya iki puan odaklanır:t=65δ(i)=exp(2i)

Hile sonrası puanların histogramı

Testin ne yaptığına dair bir fikir edinmek için , sadece değil, her skor için hesapladım ve skora karşı çizdim:zt

Z'nin çizimi

(Aslında, küçük sayımlarla ilgili sorunlardan kaçınmak için, önce paydasını hesaplamak için 0'dan 100'e kadar her sayıya 1 ekledim .)z

65'in yakınındaki dalgalanma, diğer tüm dalgalanmaların, bu testin varsayımlarına uygun olarak, yaklaşık 1 boyutta olma eğilimi açıktır. Test istatistiği, ve buna karşılık gelen p değeri , bu çok anlamlı bir sonuçtur. Sorudaki şekil ile görsel karşılaştırma, bu testin en az küçük bir p değeri döndüreceğini göstermektedir.z=4.19Φ(z)=0.0000136

(Not olsa da, deney kendisi olmadığını lütfen değil fikirleri göstermek için gösterilen bu arsa kullanın. Test görünüyor sadece eşiğinde çizilen değerde, başka hiçbir yerde. Yine de böyle bir arsa oluşturmak iyi olurdu Test istatistiğinin hile puanı olarak gerçekten beklenen eşikleri belirlediğini ve diğer tüm puanların bu tür değişikliklere tabi olmadığını doğrulamak için Burada, diğer tüm puanlarda yaklaşık -2 ile 2 arasında dalgalanma olduğunu, ancak nadiren büyük bir ihtiyaç aslında hesaplama için bu arsa değerlerin standart sapmasını hesaplamak değil de o. Not, ve böylece birden fazla yerde dalgalanmaları şişirme efektleri hile ile ilişkili problemleri önler.)z

Bu testi birden fazla eşik değerine uygularken, test boyutunun bir Bonferroni ayarı akıllıca olacaktır. Aynı anda birden fazla teste uygulandığında ek ayarlama da iyi bir fikir olacaktır.

Değerlendirme

Bu prosedür, gerçek veriler üzerinde test edilene kadar ciddi şekilde önerilemez. İyi bir yol, bir test için puan almak ve test için eşik olarak kritik olmayan bir puan kullanmak olacaktır . Muhtemelen böyle bir eşik, bu hile biçimine maruz kalmamıştır. Bu kavramsal modele göre hile simülasyonu yapın ve simülasyon dağılımını inceleyin . Bu, (a) p değerlerinin doğru olup olmadığını ve (b) testin simüle edilmiş hile biçimini belirleme gücünü gösterecektir. Gerçekten de, değerlendirilen veriler üzerinde böyle bir simülasyon çalışması kullanılabilir ve testin uygun olup olmadığını ve gerçek gücünün ne olduğunu test etmek için son derece etkili bir yol sağlar. Çünkü test istatistiğizz bu kadar basit, simülasyonlar yapmak için pratik ve hızlı bir şekilde yürütmek olacaktır.


Bu test biraz ayarlanmalıdır çünkü beklentisi dağılımın ikinci türeviyle (yaklaşık olarak) orantılıdır. Eşiğin bir moda yakın olduğu örnekte, ikinci türev sıfıra yakındır, bu yüzden sorun yoktur, ancak yüksek eğrilikli bir alanda (simüle edilen verilerde yaklaşık 70 veya 90) bir eşik için ayarlama önemli olabilir. Bir şansım olursa bu cevabı buna göre düzenleyeceğim. z
whuber

1

Dipsleri açıkça tahmin eden bir modelin takılmasını ve daha sonra verilerin naif olandan çok daha iyi uyduğunu göstermesini öneririm.

İki bileşene ihtiyacınız var:

  • puanların ilk dağılımı,
  • bir eşiğin altına düştüğünde puanların tekrar kontrol edilmesi (dürüst ya da değil).

Tek bir eşik ( değeri ) için olası bir model şudur: buradat

pfinal(s)=pinitial(s)pinitial(s)m(st)+δ(s=t)s=0t1pinitial(s)m(st),
  • pfinal(s) - final skorunun olasılık dağılımı,
  • pinitial(s) - eşik olmasaydı olasılık dağılımı,
  • m(st) - manipülasyon skorunun geçme skoruna olasılığı ,st
  • δ(s=t) Kronecker deltasıdır, yani ise 1 ve aksi takdirde 0'dır.s=t

Genellikle puanları fazla yükseltemezsiniz. Ben üstel çürüme , burada yeniden kontrol (manipüle) puanlarının oranı şüpheli .m(st)aqtsa

İlk dağıtım olarak Poisson veya Gauss dağılımını kullanmayı deneyebilirsiniz. Tabii ki ideal olarak aynı teste sahip olmak gerekir, ancak bir grup öğretmen için eşikler ve diğeri için eşik değeri yoktur.

Daha fazla eşik varsa, aynı formül uygulanabilir ancak her için düzeltmeler . Belki de de farklı olacaktır (örneğin, başarısız geçiş arasındaki fark, iki geçiş notu arasındaki farktan daha önemli olabilir).tiai

Notlar:

  • Geçme notunun hemen altındaysa bazen testlerin yeniden kontrol edilmesi prosedürleri vardır. O zaman hangi örneklerin dürüst ve hangilerinin değil - olduğunu söylemek daha zordur.
  • m(st) mutlaka test türüne bağlı olacaktır. Örneğin, açık sorular varsa, bazı cevaplar belirsiz olabilir ve bunların sayısı bağlıdır (bu nedenle düşük puanlama için skoru yükseltmek daha kolay olabilir). Kapalı seçim testi için doğru ve yanlış cevapların sayısında çok az fark vardır veya hiç fark olmamalıdır.s
  • Bazen 'düzeltilmiş' puanlar üzerinde olabilir - idealize edilmiş biri farklı olabilir.tδ(s=t)

Bunun tam sorumu cevapladığından emin değilim. Bu durumda, sınavları tekrar kontrol etme olanağımız yoktur. Tüm gözlemlenenler final puanlarının dağılımıdır. Dağılım çoğunlukla normaldir. Manipülasyondan şüphelendiğimiz belirli bir kesme noktası dışında, normal eğride bir kırılma var. Eğer null eğri o noktada "pürüzsüz" olacaksa, onu "engebeli" olan alternatif bir hipoteze karşı nasıl test edebiliriz
d_a_c321

Bence sorunun altını çizdim. Demek istediğim: Gaussian (2 parametre) ve hesaplamak , sonra (Gaussian + (t + 1) eşikleri için 2 parametre) ve değerini hesaplamaktı . Düzgünlüğü hesaplamak (örneğin, ) ilginç olabilir, ancak alttaki varsayımları vb. Kontrol etmek önemlidir ( örneğin, 2 puanlık çok sorulu testler için oldukça yüksek "başlangıç" tırtıklı olabilir). Birisinin ham verilere erişimi varsa (yani tüm cevaplar, sadece toplam puanlar), o zaman test için daha da fazla alan var ...X2pfinalX2s=099|p(s+1)p(s)|2
Piotr Migdal

1

Bu sorunu iki alt probleme böldüm:

  • Verilere uyacak bir dağılımın parametrelerini tahmin edin
  • Takılı dağıtımı kullanarak aykırı algılama gerçekleştirin

Her iki alt problemin de üstesinden gelmenin çeşitli yolları vardır.

Bana öyle geliyor ki, Poisson dağılımı, bağımsız ve aynı şekilde dağıtılmış olsaydı (iid) verilere sığacaktı , ki elbette öyle olmadığını düşünüyoruz. Eğer safça dağılımın parametrelerini tahmin etmeye çalışırsak, aykırı değerlere çarpık kalacağız. Bunun üstesinden gelmenin iki olası yolu, Sağlam Regresyon tekniklerini veya çapraz doğrulama gibi sezgisel bir yöntemi kullanmaktır.

Aykırı tespit için yine çok sayıda yaklaşım vardır. En basit olanı, 1. aşamada yerleştirdiğimiz dağıtımın güven aralıklarını kullanmaktır. Diğer yöntemler arasında bootstrap yöntemleri ve Monte-Carlo yaklaşımları yer alır.

Bu, dağıtımda bir "sıçrama" olduğunu söylemese de, örnek boyutu için beklenenden daha fazla aykırı olup olmadığını söyleyecektir.

Daha karmaşık bir yaklaşım, bileşik dağılımlar gibi veriler için çeşitli modeller oluşturmak ve hangi modellerin verilere en uygun olduğunu belirlemek için bir çeşit model karşılaştırma yöntemi (AIC / BIC) kullanmak olacaktır. Ancak sadece "beklenen bir dağılımdan sapma" arıyorsanız bu aşırıya kaçmış gibi görünüyor.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.