Nate Silver'ın tahminlerinin doğruluğunu nasıl değerlendirebiliriz?


19

İlk olarak, sonuçların olasılığını verir. Örneğin ABD seçimleri için tahminleri şu anda% 82 Clinton vs% 18 Trump.

Şimdi, Trump kazansa bile, kazanması gereken zamanın sadece% 18'i olmadığını nasıl bilebilirim?

Diğer sorun ise olasılıklarının zaman içinde değişmesidir. 31 Temmuz'da Trump ve Clinton arasında neredeyse 50-50 idi.

Sorum şu, aynı sonuca sahip aynı gelecek olay için her gün farklı bir olasılığı olduğu göz önüne alındığında, o güne kadar mevcut olan bilgilere dayanarak her bir tahmin için ne kadar doğru olduğunu nasıl ölçebilirim?


1
Yapamadığımızdan şüpheleniyorum. Bu tür bir değerlendirme yapmak için altın standartlara ihtiyaç vardır ve en iyisi sadece karşılaştırılması zor olan önceki seçimlerin gözlemleridir (çünkü her seçimde alternatif örnekleme ve seçmen davranışı yöntemleri yer alacaktır). Ama seçim anketlerinde uzman değilim, bu yüzden bunu bir yorum olarak değil, bir cevap olarak bırakıyorum :)
Tal Galili

2
@TalGalili: Puanlama kurallarını kullanarak en azından bir şey söyleyebiliriz - örneğin, regresyonlarda tahmin ettiğimiz gözlemlenemeyen parametreler hakkında bir şey söyleyebileceğimiz gibi.
S.Kolassa - Monica'yı

Bu muhtemelen bir "puanlama kuralı" dır, ancak, n olay için, gerçekleşen olaylara olan olasılığını çoğaltın ve ortalama bir tahmin oranı elde etmek için n. Her günlük olasılığı ayrı bir tahmin olarak düşünebilirsiniz.
barrycarter

Olasılıklar neden zamanla değişemez? Bir spor etkinliğinde, bir gol atıldığında veya ev sahibi takım vurulduğunda oranlar değişmez mi?
Rodrigo de Azevedo

8
Silver'ın modeli bir olasılık tahminden çok daha fazlasını verir - 50 eyaletin her biri için kazanma olasılıklarından ve zafer marjlarından elde edilen tahmini bir zafer marjı verir. Bu nedenle, sadece tek bir ikili sonucu tahmin etmekle kalmayıp, 50 farklı ölçüm için bir nokta tahmini ve hata marjı verir (aralarında - muhtemelen yüksek derecede korelasyon olsa da).
Micah

Yanıtlar:


14

Olasılıksal tahminler (veya bilindiği gibi yoğunluk tahminleri) kullanılarak değerlendirilebilir , yani yoğunluk tahminini ve gözlenen bir sonucu yoğunluk tahmininde beklentiye göre en aza indirilen sözde skorla eşleştiren fonksiyonlar aslında tahmin edilecek gerçek yoğunluktur. Uygun puanlama kuralları, yalnızca gerçek gelecekteki yoğunluk ile beklentide en aza indirilen puanlama kurallarıdır .

Olasılıklı hava tahmini bağlamında Brier (1950, Aylık Hava Durumu Değerlendirmesi ) ile başlayan bu tür uygun puanlama kuralları vardır . Czado ve diğ. (2009, Biometrics ) ayrı vaka için daha yeni bir genel bakış sunmaktadır. Gneiting & Katzfuss (2014, İstatistiklerin Yıllık İncelemesi ve Uygulaması ) genel olarak olasılıklı tahminin genel bir değerlendirmesini sunmaktadır.

Bununla birlikte, puanlama kurallarını yorumlamak biraz zordur ve gerçekten sadece çoklu olasılık tahminlerini karşılaştırmaya yardımcı olurlar - daha düşük puanı olan daha iyidir. Örnekleme varyasyonuna kadar, yani, puanlarını ortalayacağımız değerlendirmek için çok sayıda tahmin yapmak her zaman daha iyidir .

Silver'ın veya diğerlerinin tahminlerinin "güncellenmesi" nasıl dahil edilir iyi bir soru. Farklı tahminlerin "anlık görüntülerini" tek bir noktada karşılaştırmak için puanlama kurallarını kullanabiliriz, hatta Silver'ın zaman içindeki olasılıklı tahminlerine bakabilir ve her zaman noktasında puanları hesaplayabiliriz. Asıl sonuç yaklaştıkça skorun düşüp düştüğünü (yani yoğunluk tahminlerinin iyileşip iyileşeceğini) umuyoruz.


5
Bunu söylemenin başka bir yolu: Tek bir olayın tahmin edilen bireysel olasılığı tek başına değerlendirilemez, ancak tahminciler değerlendirilebilir (puan işlevleri ile).
kjetil b halvorsen

1
"Beklenti en aza indirgenir" için bence kilit mesele hangi topluluktan beklentidir? Nate Silver'ın tüm tahminlerini alıyor muyuz? Sadece cumhurbaşkanlığı seçimleri? Burada tek bir cevap var mı bilmiyorum. Farklı tahmincileri karşılaştırmak için, herhangi bir yaygın olay kümesi üzerindeki tahminler makul olabilir.
GeoMatt22

@ GeoMatt22 - diğer seçimler için oldukça benzer bir metodolojiye sahip, bu nedenle tüm seçim tahminlerini toplamak geçerli olabilir
DVK

11

Nate Silver'ın Sinyal ve Gürültü adlı kitabında , aşağıdakileri yazıyor, bu da sorunuz için bir fikir verebilir:

Bir tahminin en önemli testlerinden biri - bunun en önemli tek olduğunu iddia ediyorum - kalibrasyon denir. Her zaman% 40 yağmur ihtimali olduğunu söylediğinizde, yağmur ne sıklıkla meydana geldi? Uzun vadede, gerçekten yaklaşık% 40 oranında yağmur yağdıysa, bu da tahminlerinizin iyi kalibre edildiği anlamına gelir. Bunun yerine, zamanın sadece yüzde 20'sini ya da zamanın yüzde 60'ını yağmur yağdıysa, öyle değildi.

Yani bu birkaç noktayı yükseltiyor. Her şeyden önce, haklı olarak belirttiğiniz gibi, tahmin ettiğiniz olayın sonucu olarak tek bir tahminin kalitesi hakkında gerçekten bir çıkarımda bulunamazsınız. Yapabileceğiniz en iyi şey, modelinizin birçok tahmin boyunca nasıl performans gösterdiğini görmektir.

Düşünülmesi gereken diğer bir şey, Nate Silver'ın sağladığı tahminlerin bir olayın kendisi değil, olayın olasılık dağılımı olmasıdır. Başkanlık yarışında yarışı kazanan Clinton, Trump veya Johnson'un olasılık dağılımını tahmin ediyor. Bu durumda, o, çok terimli bir dağılım tahmin ediyor.

Ama aslında yarışı çok daha ayrıntılı bir düzeyde öngörüyor. Tahminleri, her adayın her eyalette kazanacağı oyların yüzde oranının olasılık dağılımlarını tahmin ediyor. Eğer 3 aday düşünürsek, bu 51 * 3 uzunluğunda rastgele bir vektör ile ve bir durum içindeki oranlar için oranların 1'e eşit olduğu kısıtıyla [0, 1] aralığında değerler alarak karakterize edilebilir. 51 sayısı, diğerlerinin 50 eyalet + DC olması (ve aslında bazı eyaletlerin seçim kolej oylarını bölebileceği için aslında birkaç tane daha olduğunu düşünüyorum) ve 3 sayısı aday sayısından kaynaklanıyor.

Şimdi tahminlerini değerlendirmek için çok fazla veriye sahip değilsiniz - yalnızca son farkında olduğum 3 seçim için tahminler verdi (dahası var mıydı?). Bu yüzden, modeli elinde tutmadıkça ve simüle edilmiş verileri kullanarak değerlendiremedikçe, modelini adil bir şekilde değerlendirmenin bir yolu olduğunu düşünmüyorum. Ama hala bakabileceğiniz bazı ilginç şeyler var. Örneğin, eyalet bazında oy oranlarını belirli bir zaman noktasında, örneğin seçimden bir hafta sonra ne kadar doğru tahmin ettiğine bakmak ilginç olacağını düşünüyorum. Bunu bir hafta, bir ay, 6 ay ve bir yıl gibi birden fazla zaman noktası için tekrarlarsanız, tahminleri için oldukça ilginç bir açıklama yapabilirsiniz. Önemli bir uyarı: sonuçlar bir seçim içindeki eyaletler arasında oldukça ilişkilidir, bu yüzden 51 eyaletten * 3 seçimden bağımsız tahmin örneğine sahip olduğunuzu gerçekten söyleyemezsiniz (yani model bir eyaletteki adayların performansını hafife alırsa, diğer eyaletlerde de hafife alma eğilimindedir) . Ama belki de böyle düşünürdüm, böylece anlamlı bir şey yapmak için yeterli veriye sahip olursunuz.


4

Yapamayacağınız tek bir tahmin için, "bu madalyonun% 60 kafa vurma şansı var" iddiasının tek bir atıştan düzeltmeye yakın olup olmadığını söyleyebileceğimizden daha fazla.

Bununla birlikte, onun yöntembilimini birçok tahmin boyunca değerlendirebilirsiniz - belirli bir seçim için sadece genel başkanlık yarışı değil, aynı zamanda cumhurbaşkanı ve diğer birçok ırkın (ev, senato, gubnertorial) oylarıyla ilgili birçok tahmin yapar. vb.) ve zaman içinde geniş çapta benzer yöntemler kullanır.

Bu değerlendirmeyi yapmanın birçok yolu vardır (bazıları oldukça karmaşıktır), ancak biraz anlam kazanmanın bazı basit yollarına bakabiliriz. Örneğin, bir kazanma olasılığının tahminlerini örneğin (% 50-55,% 55-65 ve benzeri) bantlara bölebilir ve sonra o banttaki tahminlerin hangi oranının ortaya çıktığını görebilirsiniz; işe yarayan% 50-55 tahmin oranı, ortalamanın nerede olduğuna bağlı olarak% 50-55 arasında bir yerde olmalıdır (artı rastgele varyasyon için bir marj *).

Bu yaklaşımla (veya diğer çeşitli yaklaşımlarla), sonuçların dağılımının bir seçim boyunca mı yoksa birkaç seçim arasında tahminlerle mi tutarlı olduğunu görebilirsiniz (doğru hatırlıyorsam, tahminlerinin olması gerekenden daha sık doğru olduğunu düşünüyorum. standart hatalarının ortalama olarak biraz fazla tahmin edildiğini gösterir).

* Tahminler bağımsız olmadığı için bunu nasıl değerlendireceğimiz konusunda dikkatli olmalıyız.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.