Şimdiye kadar verilen tüm cevaplar yardımcı oldu, ancak istatistiksel olarak kesin değiller, o yüzden ben de buna bir göz atacağım. Aynı zamanda, bu seçime odaklanmak yerine genel bir cevap vereceğim.
Seçimi kazanan Clinton gibi gerçek dünya olaylarıyla ilgili soruları cevaplamaya çalışırken aklımızda tutmamız gereken ilk şey, bir dönüşten çeşitli renkteki topları almak gibi matematik problemlerinin aksine. t Soruyu cevaplamak için benzersiz bir makul yol ve dolayısıyla benzersiz bir makul cevap değil. Biri sadece "Hillary% 75 kazanma şansına sahip" diyorsa ve seçim modellerini, tahminlerini yaparken kullandıkları verileri, model onaylarının sonuçlarını, arka plan varsayımlarını, açıklamalarını yapmaz. popüler oylamaya veya seçim oyuna vs. atıfta bulunuyorlar, o zaman ne anlama geldiklerini gerçekten söylememişler, tahminlerinin bir yararı olup olmadığını değerlendirmek için size yeterince bilgi vermediler. Ayrıca, öyle değil
Peki, bir istatistikçinin Clinton'un şansını tahmin etmek için kullanabileceği bazı prosedürler nelerdir? Gerçekten, sorunu nasıl çerçeveleyebilirler? Yüksek düzeyde, en önemlilerinden ikisi sıklıkta olan ve Bayesyen olan, olasılık olasılıklarının kendileri vardır.
Bir de frequentist görünümü, bir olasılık olarak, aynı deneyde bir çok bağımsız çalışmalarda üzerinde bir olayın sınırlayıcı frekansını temsil büyük sayılar hakları (güçlü ya da zayıf). Herhangi bir seçimin benzersiz bir etkinlik olmasına rağmen, sonuçları hem Amerikan hem de başkanlık seçimlerini veya 2016'da dünyadaki tüm seçimleri ya da başka bir şeyi içerebilecek, hem tarihsel hem de varsayımsal, sınırsız bir olay popülasyonundan çekiliş olarak görülebilir. Bir Clinton zafer A% 75 şans eğer anlamına gelir sonuçların dizisidir (0 veya 1) Şirketimizdeki modeli söz konusu olduğunda bu seçimde tamamen eşdeğerdir bağımsız seçimler, sonra örnek demek nın-ninX1, X2, … olarak .75 olasılık yakınsar n sonsuza gider.X1, X2, … , Xnn
Bir Bayesian görüşüne göre, olasılık, bir öznellikçi Bayesian olmanıza bağlı olarak, gerçek inanç olabilir veya olmayabilir bir dereceye kadar bir inandırılabilirlik veya güvenilirlik derecesini temsil eder. Bir Clinton zaferinin% 75 şansı, kazanacağı% 75 güvenilir olduğu anlamına gelir. Buna karşılık, krediler serbest bir şekilde (bir modelin veya analistin önceden var olan inançlarına dayanarak) temel olasılık yasaları ( Bayes'in teoremi gibi) ve ortak bir olayın olasılığının herhangi birinin marjinal olasılığını aşamaması gerçeği dahilinde serbestçe seçilebilir . bileşen olayları). Bu yasaları özetlemenin bir yolu, bir etkinliğin sonucuyla ilgili bahisler üstlenirseniz, bahisçilerinize güvenilirliğinize göre şans tanıyarak kumarbazın Hollandalı bir kitap yapamamasıdır.Size karşı, yani, etkinliğin nasıl yürüdüğü önemli değil, para kaybedeceğinizi garanti eden bir bahis seti.
Olasılık konusunda sıkça veya Bayesçi bir bakış açısı ile baksanız da, verilerin nasıl analiz edileceği ve olasılığın nasıl tahmin edileceğine dair hala çok fazla karar verilmelidir. Muhtemelen en popüler yöntem doğrusal regresyon gibi parametrik regresyon modellerine dayanmaktadır. Bu ortamda, analist, parametreler olarak adlandırılan bir sayı vektörü tarafından indekslenen bir parametrik dağılım ailesini (yani olasılık önlemlerini ) seçer . Her bir sonuç, analistin sonucu tahmin etmek için kullanmak istediği bilinen değerler (işsizlik oranı gibi) olan değişkenlere göre dönüştürülen, bu dağılımdan elde edilen bağımsız bir rasgele değişkendir. Analist, verileri kullanarak parametre değerlerinin tahminlerini ve en küçük kareler gibi bir model uygunluk kriterini seçer.veya maksimum olabilirlik . Bu tahminleri kullanarak, model , ortak değişkenlerin herhangi bir değeri için sonucun bir tahminini (muhtemelen sadece tek bir değer, muhtemelen bir aralık veya başka bir değerler kümesi) üretebilir . Özellikle, bir seçimin sonucunu tahmin edebilir. Parametrik modellerin yanı sıra, parametrik olmayan modeller (yani, sonsuz uzun bir parametre vektörüyle indekslenen bir dağıtım ailesi tarafından tanımlanan modeller) ve ayrıca verilerin hiç üretilmediği bir model kullanmayan tahmin edilen değerlere karar verme yöntemleri de vardır. , gibi yakın komşu sınıflandırıcı ve rastgele ormanlar .
Tahminlerle gelmek bir şey, ama iyi olup olmadıklarını nereden biliyorsun? Sonuçta, yeterince yanlış olan tahminler işe yaramaz olmaktan daha kötüdür. Test tahminleri, daha büyük bir model doğrulama uygulamasının bir parçasıdır, yani, belirli bir modelin belirli bir amaç için ne kadar iyi olduğunu ölçmek. Tahminleri doğrulamak için iki popüler yöntem, çapraz doğrulama ve herhangi bir modele uymadan önce verileri eğitim ve test alt gruplarına bölmektir. Verilere dahil edilen seçimlerin 2016 ABD başkanlık seçimini temsil ettiği ölçüde, tahminleri onaylamaktan elde ettiğimiz tahmin doğruluğunun tahminleri, tahminimizin 2016 ABD başkanlık seçiminde ne kadar doğru olacağını bize bildirecektir.