Haberdeki denklemler: Çok seviyeli bir modeli genel izleyiciye çevirmek


24

New York Times, New York City eğitimcilerine geri bildirim vermek için kullanılan 'katma değerli' öğretmen değerlendirme sistemi hakkında uzun bir yorum yaptı. Lede skorları hesaplamak için kullanılan bir denklemdir - bağlamsız olarak sunulur. Retorik stratejinin matematik yoluyla korkutucu göründüğü görülüyor:

alt metin

Makalenin tam metni şu adreste bulunabilir: http://www.nytimes.com/2011/03/07/education/07winerip.html

Yazar, Michael Winerip, denklemin anlamının, Matt Damon dışında, ortalama bir öğretmenden daha azının anlama kapasitesinin ötesinde olduğunu savunuyor:

“Bayan Isaacson'ın 3,69 puan tahmin puanı hesaplaması daha da korkutucu. 32 öğrenciye dayanıyor - bir öğrencinin“ en erken yıldan önce notta kalması ”ve bir öğrencinin“ önceki testte veya sınavdan sonra şehre yeni gelmesi ”de dahil yıl."

Bu 32 değişken “Good Will Hunting” da sadece Matt Damon'ın çözebildiği denklemlerden birine benzeyen istatistiksel bir modele bağlanır.

Süreç şeffaf görünüyor, ancak öğretmenler, müdürler ve zeki insanlar gibi zeki insanlar için bile çamur gibi açık ve - bunu söylemekte tereddüt ediyorum - gazeteciler.

Bayan Isaacson iki Ivy League derecesine sahip olabilir, ancak o kayboldu. “Bunu anlamak imkansız buluyorum” dedi.

Sade İngilizcede, Bayan Isaacson, bölümün kendisine söylemeye çalıştığı şey hakkında en iyi tahminde bulunuyor: 66 öğrenciden 65'i devlet sınavında yeterlik kazanmış olsa da, 3'lerinden fazlasının 4 olması gerekiyordu.

Ama bu sadece bir tahmin. "

Modeli bir uzmana nasıl açıklarsınız? Bilginize, tam teknik rapor şurada:

http://schools.nyc.gov/NR/rdonlyres/A62750A4-B5F5-43C7-B9A3-F2B55CDF8949/87046/TDINYCTechnicalReportFinal072010.pdf

Güncelleme: Andrew Gelman burada düşüncelerini sunar: http://www.stat.columbia.edu/~cook/movabletype/archives/2011/03/its_no_fun_bein.html


1
Gelman'ın düşünceleri ve yayınlarına yaptığı yorumlar okunmaya değer. Puanlama sistemi neredeyse kesinlikle çöptür: Bu öğretmen için% 95 CI'nin olduğunu düşünün . [0%, 52%]
gung - Reinstate Monica

Yanıtlar:


12

İşte bir olasılık.

Öğretmen performansını değerlendirmek geleneksel olarak zor olmuştur. Bu zorluğun bir kısmı, farklı öğrencilerin belirli bir konuda farklı ilgi seviyelerine sahip olmalarıdır. Belirli bir öğrenci A alırsa, bu mutlaka öğretimin mükemmel olduğu anlamına gelmez - daha ziyade, çok yetenekli ve ilgi çekici bir öğrencinin, zayıf öğretim kalitesine rağmen başarılı olmak için elinden geleni yapması anlamına gelebilir. Tersine, D alan bir öğrenci mutlaka öğretimin zayıf olduğu anlamına gelmez - bunun yerine, öğretmenin eğitmek ve ilham vermek için en iyi çabalarına rağmen ilgisiz bir öğrencinin yaklaştığı anlamına gelebilir.

Zorluk, öğrenci seçiminin (ve dolayısıyla öğrencilerin ilgi seviyelerinin) rastgele olmaktan uzak olması nedeniyle daha da kötüleşir. Okulların bir konuyu (veya bir grup konuyu) başkalarına vurgulaması yaygındır. Örneğin, bir okul beşeri bilimler üzerinde teknik konuları vurgulayabilir. Bu tür okullardaki öğrenciler, muhtemelen en kötü öğretmenleri bile geçme notu alacakları teknik alanlarla ilgilenmektedirler. Bu nedenle, matematikten geçen öğrencilerin oranı öğretmenin iyi bir ölçütü değildir - iyi öğretmenlerin öğrenmeye istekli öğrencilerle olduğundan daha iyisini yapmasını bekliyoruz. Buna karşılık, aynı öğrenciler sanatla hiç ilgilenmeyebilir. Tüm öğrencilerin A almasını sağlamak için en iyi öğretmenden bile beklemek zor olurdu.

Başka bir zorluk, verilen bir sınıftaki tüm başarının doğrudan o sınıfın öğretmenine atfedilememesidir. Aksine, başarı okulun (veya tüm bölgenin) motivasyon ve başarı için çerçeve oluşturmasından kaynaklanıyor olabilir.

Tüm bu zorlukları göz önüne almak için, araştırmacılar öğretmenin 'katma değerini' değerlendiren bir model yarattılar. Temelde, model, her bir öğrencinin kendine özgü özelliklerini (öğrenmede genel ilgi ve başarı düzeyi) yanı sıra okulun ve bölgenin öğrenci başarısına katkılarını da dikkate alır ve 'ortalama' olan beklenen notları tahmin eder bu ortamda öğretmek. Daha sonra model, gerçek notları öngörülenlerle karşılaştırır ve tüm diğer düşünceler göz önüne alındığında öğretimin yeterli olup olmadığına, yeterince iyi veya daha kötü olduğuna karar verir. Her ne kadar model matematikçi olmayanlar için karmaşık görünse de, aslında oldukça basit ve standart. Matematikçiler on yıllardır benzer (ve hatta daha karmaşık) modeller kullanıyorlar.

Özetlemek gerekirse, Bayan Isaacson'ın tahmini doğrudur. 66 öğrencisinden 65'i devlet sınavında yeterlilik kazanmış olsa da, bir köpek öğretmenleri olsa bile aynı puanları alırlardı. Gerçek bir iyi öğretmen, bu öğrencilerin sadece “yetkin” değil, aynı testte “iyi” puanları kazanmasını sağlayacaktır.


Bu noktada, modelle ilgili endişelerimin bir kısmını anlatabilirim. Örneğin, model geliştiricileri, öğretim kalitesini değerlendirmedeki bazı zorluklara değindiğini iddia ediyor. Onlara inanmak için yeterli nedenim var mı? Düşük gelirli nüfusa sahip mahalleler daha düşük beklenen “bölge” ve “okul” puanlarına sahip olacaktır. Bir mahallenin 2,5 puan alacağını söyleyelim. Ortalama 3 olacak bir öğretmen iyi bir değerlendirme alacaktır. Bu, öğretmenleri 4 veya 5 puan yerine 3 puan almaya itebilir, yani öğretmenler mükemmellikten ziyade sıradanlığı hedefler. Bunun olmasını istiyor muyuz? Son olarak, model matematiksel olarak basit olmasına rağmen, insan sezgisinin çalışma biçiminden çok farklı bir şekilde çalışır. Sonuç olarak, modeli doğrulamak veya tartışmak için açık bir yolumuz yok ' kararı. Bayan Isaacson'ın talihsiz örneği, bunun neye yol açabileceğini göstermektedir. Bu kadar önemli bir konuda bilgisayara kör bir şekilde güvenmek istiyor muyuz?


Bunun bir meslekten olmayanın açıklaması olduğuna dikkat edin. Burada potansiyel olarak tartışmalı birkaç konuyu gözden kaçırdım. Örneğin, düşük gelirli demografik yapıya sahip okul bölgelerinin daha düşük performans göstermesinin beklendiğini söylemek istemedim, çünkü bu bir meslekten iyi gelmeyecektir.

Ayrıca, amacın aslında modelin makul bir şekilde açıklamasını vermek olduğunu varsaydım. Ama bunun NYT’nin hedefi olmadığı konusunda oldukça eminim. Bu yüzden, açıklamalarının zayıf olmasının sebebinin en azından kasti FUD olduğunu düşünüyorum.


Belki de son paragrafın ikinci cümlesini, “66 öğrencisinden 65'i devlet sınavında 'yetkin' olarak değerlendirmiş olsa da büyük olasılıkla beceriksiz bir öğretmeni olsa bile aynı puanı almış olacaklardı.
Wayne

11

"Öğretme puanın, öğrencilerinin ...

  • Önceden ölçtüğü gibi önceden bildiklerini,

  • Öğrencilerin bireysel olarak onlar hakkında bildiklerimize dayanarak ne kadar iyi öğrenebileceğini düşünüyoruz (“özellikleri”)

  • Ve öğrencilerin ilçenizde, okulunuzda ve sınıfta ortalama olarak ne kadar iyi yaptıkları (sınıfınızda başka öğretmenler varsa).

“Başka bir deyişle, öğrencilerinizin hazırlık ve özelliklerini dikkate alarak ölçülen öğrenme miktarını ve sizin gibi ortamlarda bulunan tüm öğrencilerin tipik performanslarını ve sizin için mevcut olan kaynakları dikkate alarak değerlendiriyoruz.

“Bu şekilde puanınız , öğrenci performanslarına ne kadar katkıda bulunduğunuzu yansıtıyor , belirleyebildiğimiz kadarıyla. Tabii ki her şeyi bilemeyiz: benzersiz ve özel öğrencileriniz olduğunu ve karşılaştığınız durumun hiçbir zaman tekrarlanamayacağını biliyoruz. bu puanın sadece, ne kadar iyi öğrettiğinizi yansıtan bir tahmin olmadığını, ancak yalnızca ders sonrası veya ders tarafından yapılan ham test kazançlarına dayanarak yapılanlardan daha adil ve daha doğru bir tahmin olduğunu biliyorum. "


2
NB Lütfen bu düşünceleri bana atfetme! İstenildiği gibi belirtilen modeli açıkça ifade etmek ve savunmak için elimden geleni yapıyorum. Bu modelin uygun, uygulanabilir, uygun, vb. Tamamen ayrı bir konudur.
whuber

(+1) Son paragraf çok iyi yazılmıştır.
chl

2

Burada anlayacak bir şey yok.

Tamam, sadece standart bir doğrusal regresyon modeli. Öğrencinin puanının okul ve öğretmen verimlilik katsayıları da dahil olmak üzere çeşitli faktörlerin doğrusal bir fonksiyonu olarak tanımlanabileceğini varsayar - bu nedenle doğrusal olmayan modellerin tüm standart problemlerini, özellikle de doğrusal olmayan bir yaklaşımın büyük bir yaklaşım olduğu gerçeğini paylaşır. dünya ve bir duruma bağlı olarak ve bununla ne kadar fazla tahmin etmeye çalışacağınıza bağlı olarak kusursuz veya utanç verici derecede kötü çalışabilir. (Ancak bir teknoloji temsilcisi yazarlarının kontrol etmesini ve iyi olduğunu öğrenmelerini beklemeli ;-)).

Ancak asıl sorun , bunun analitik bir araç olduğudur ve insanların başarılarını değerlendirmek için kullanılmamalı - bu şekilde (notların adil olup olmadığına bakılmaksızın), her değerlendiricinin kendi markasını anlamaya çalışarak (muhtemelen umutla) (Bu optimizasyon gibi) sadece bu durumda olduğu gibi, sadece umutsuz bir karışıklığa kavuşur.


3
“Burada anlayacak hiçbir şey yok - sadece standart bir doğrusal regresyon modeli” - teehee… sanki matematiksel herhangi bir teselli gibi. Sosyoloji veya tanrı yardım etsin, iletişim uzmanları için istatistik derslerinde ders verme zevkine sahip olmadığınızı kabul ediyorum.
Fabians

@fabians Bu sadece amacımı kanıtlıyor - matematikle insanlara saymaktan daha karmaşık olanları bu yaklaşımın en büyük kusuru = = Ama ben yeniden değerlendirmeye çalışacağım.

Bu, geçerli bir eleştiridir - özellikle doğrusallığı varsaymakla ilgili kısım - ancak asıl soruya gerçekten yanıt vermez (niyetiniz varsayımsal "meslekten olmayanları" rencide etmediği sürece).
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.