Nate Silver'ın Sinyal ve Gürültü adlı kitabında , aşağıdakileri yazıyor, bu da sorunuz için bir fikir verebilir:
Bir tahminin en önemli testlerinden biri - bunun en önemli tek olduğunu iddia ediyorum - kalibrasyon denir. Her zaman% 40 yağmur ihtimali olduğunu söylediğinizde, yağmur ne sıklıkla meydana geldi? Uzun vadede, gerçekten yaklaşık% 40 oranında yağmur yağdıysa, bu da tahminlerinizin iyi kalibre edildiği anlamına gelir. Bunun yerine, zamanın sadece yüzde 20'sini ya da zamanın yüzde 60'ını yağmur yağdıysa, öyle değildi.
Yani bu birkaç noktayı yükseltiyor. Her şeyden önce, haklı olarak belirttiğiniz gibi, tahmin ettiğiniz olayın sonucu olarak tek bir tahminin kalitesi hakkında gerçekten bir çıkarımda bulunamazsınız. Yapabileceğiniz en iyi şey, modelinizin birçok tahmin boyunca nasıl performans gösterdiğini görmektir.
Düşünülmesi gereken diğer bir şey, Nate Silver'ın sağladığı tahminlerin bir olayın kendisi değil, olayın olasılık dağılımı olmasıdır. Başkanlık yarışında yarışı kazanan Clinton, Trump veya Johnson'un olasılık dağılımını tahmin ediyor. Bu durumda, o, çok terimli bir dağılım tahmin ediyor.
Ama aslında yarışı çok daha ayrıntılı bir düzeyde öngörüyor. Tahminleri, her adayın her eyalette kazanacağı oyların yüzde oranının olasılık dağılımlarını tahmin ediyor. Eğer 3 aday düşünürsek, bu 51 * 3 uzunluğunda rastgele bir vektör ile ve bir durum içindeki oranlar için oranların 1'e eşit olduğu kısıtıyla [0, 1] aralığında değerler alarak karakterize edilebilir. 51 sayısı, diğerlerinin 50 eyalet + DC olması (ve aslında bazı eyaletlerin seçim kolej oylarını bölebileceği için aslında birkaç tane daha olduğunu düşünüyorum) ve 3 sayısı aday sayısından kaynaklanıyor.
Şimdi tahminlerini değerlendirmek için çok fazla veriye sahip değilsiniz - yalnızca son farkında olduğum 3 seçim için tahminler verdi (dahası var mıydı?). Bu yüzden, modeli elinde tutmadıkça ve simüle edilmiş verileri kullanarak değerlendiremedikçe, modelini adil bir şekilde değerlendirmenin bir yolu olduğunu düşünmüyorum. Ama hala bakabileceğiniz bazı ilginç şeyler var. Örneğin, eyalet bazında oy oranlarını belirli bir zaman noktasında, örneğin seçimden bir hafta sonra ne kadar doğru tahmin ettiğine bakmak ilginç olacağını düşünüyorum. Bunu bir hafta, bir ay, 6 ay ve bir yıl gibi birden fazla zaman noktası için tekrarlarsanız, tahminleri için oldukça ilginç bir açıklama yapabilirsiniz. Önemli bir uyarı: sonuçlar bir seçim içindeki eyaletler arasında oldukça ilişkilidir, bu yüzden 51 eyaletten * 3 seçimden bağımsız tahmin örneğine sahip olduğunuzu gerçekten söyleyemezsiniz (yani model bir eyaletteki adayların performansını hafife alırsa, diğer eyaletlerde de hafife alma eğilimindedir) . Ama belki de böyle düşünürdüm, böylece anlamlı bir şey yapmak için yeterli veriye sahip olursunuz.