İşte bir olasılık.
Öğretmen performansını değerlendirmek geleneksel olarak zor olmuştur. Bu zorluğun bir kısmı, farklı öğrencilerin belirli bir konuda farklı ilgi seviyelerine sahip olmalarıdır. Belirli bir öğrenci A alırsa, bu mutlaka öğretimin mükemmel olduğu anlamına gelmez - daha ziyade, çok yetenekli ve ilgi çekici bir öğrencinin, zayıf öğretim kalitesine rağmen başarılı olmak için elinden geleni yapması anlamına gelebilir. Tersine, D alan bir öğrenci mutlaka öğretimin zayıf olduğu anlamına gelmez - bunun yerine, öğretmenin eğitmek ve ilham vermek için en iyi çabalarına rağmen ilgisiz bir öğrencinin yaklaştığı anlamına gelebilir.
Zorluk, öğrenci seçiminin (ve dolayısıyla öğrencilerin ilgi seviyelerinin) rastgele olmaktan uzak olması nedeniyle daha da kötüleşir. Okulların bir konuyu (veya bir grup konuyu) başkalarına vurgulaması yaygındır. Örneğin, bir okul beşeri bilimler üzerinde teknik konuları vurgulayabilir. Bu tür okullardaki öğrenciler, muhtemelen en kötü öğretmenleri bile geçme notu alacakları teknik alanlarla ilgilenmektedirler. Bu nedenle, matematikten geçen öğrencilerin oranı öğretmenin iyi bir ölçütü değildir - iyi öğretmenlerin öğrenmeye istekli öğrencilerle olduğundan daha iyisini yapmasını bekliyoruz. Buna karşılık, aynı öğrenciler sanatla hiç ilgilenmeyebilir. Tüm öğrencilerin A almasını sağlamak için en iyi öğretmenden bile beklemek zor olurdu.
Başka bir zorluk, verilen bir sınıftaki tüm başarının doğrudan o sınıfın öğretmenine atfedilememesidir. Aksine, başarı okulun (veya tüm bölgenin) motivasyon ve başarı için çerçeve oluşturmasından kaynaklanıyor olabilir.
Tüm bu zorlukları göz önüne almak için, araştırmacılar öğretmenin 'katma değerini' değerlendiren bir model yarattılar. Temelde, model, her bir öğrencinin kendine özgü özelliklerini (öğrenmede genel ilgi ve başarı düzeyi) yanı sıra okulun ve bölgenin öğrenci başarısına katkılarını da dikkate alır ve 'ortalama' olan beklenen notları tahmin eder bu ortamda öğretmek. Daha sonra model, gerçek notları öngörülenlerle karşılaştırır ve tüm diğer düşünceler göz önüne alındığında öğretimin yeterli olup olmadığına, yeterince iyi veya daha kötü olduğuna karar verir. Her ne kadar model matematikçi olmayanlar için karmaşık görünse de, aslında oldukça basit ve standart. Matematikçiler on yıllardır benzer (ve hatta daha karmaşık) modeller kullanıyorlar.
Özetlemek gerekirse, Bayan Isaacson'ın tahmini doğrudur. 66 öğrencisinden 65'i devlet sınavında yeterlilik kazanmış olsa da, bir köpek öğretmenleri olsa bile aynı puanları alırlardı. Gerçek bir iyi öğretmen, bu öğrencilerin sadece “yetkin” değil, aynı testte “iyi” puanları kazanmasını sağlayacaktır.
Bu noktada, modelle ilgili endişelerimin bir kısmını anlatabilirim. Örneğin, model geliştiricileri, öğretim kalitesini değerlendirmedeki bazı zorluklara değindiğini iddia ediyor. Onlara inanmak için yeterli nedenim var mı? Düşük gelirli nüfusa sahip mahalleler daha düşük beklenen “bölge” ve “okul” puanlarına sahip olacaktır. Bir mahallenin 2,5 puan alacağını söyleyelim. Ortalama 3 olacak bir öğretmen iyi bir değerlendirme alacaktır. Bu, öğretmenleri 4 veya 5 puan yerine 3 puan almaya itebilir, yani öğretmenler mükemmellikten ziyade sıradanlığı hedefler. Bunun olmasını istiyor muyuz? Son olarak, model matematiksel olarak basit olmasına rağmen, insan sezgisinin çalışma biçiminden çok farklı bir şekilde çalışır. Sonuç olarak, modeli doğrulamak veya tartışmak için açık bir yolumuz yok ' kararı. Bayan Isaacson'ın talihsiz örneği, bunun neye yol açabileceğini göstermektedir. Bu kadar önemli bir konuda bilgisayara kör bir şekilde güvenmek istiyor muyuz?
Bunun bir meslekten olmayanın açıklaması olduğuna dikkat edin. Burada potansiyel olarak tartışmalı birkaç konuyu gözden kaçırdım. Örneğin, düşük gelirli demografik yapıya sahip okul bölgelerinin daha düşük performans göstermesinin beklendiğini söylemek istemedim, çünkü bu bir meslekten iyi gelmeyecektir.
Ayrıca, amacın aslında modelin makul bir şekilde açıklamasını vermek olduğunu varsaydım. Ama bunun NYT’nin hedefi olmadığı konusunda oldukça eminim. Bu yüzden, açıklamalarının zayıf olmasının sebebinin en azından kasti FUD olduğunu düşünüyorum.