Üç şey hakkında sorular soruyorsunuz: (a) tekli tahminler almak için birkaç tahminin nasıl birleştirileceği, (b) Bayesian yaklaşımı burada kullanılıyorsa ve (c) sıfır olasılıklarla nasıl başa çıkılacağı.
Tahminleri birleştirmek, yaygın bir uygulamadır . Eğer bu tahminlerin ortalamasını almaktan çok daha fazla tahmininiz varsa, ortaya çıkan birleştirilmiş tahmin, tahminlerden herhangi birine göre doğruluk açısından daha iyi olmalıdır. Bunları ortalamalandırmak için ağırlıkların ters hatalara (yani kesinliğe) veya bilgi içeriğine dayandığı ağırlıklı ortalamaları kullanabilirsiniz . Her kaynağın güvenilirliği hakkında bilginiz varsa, her kaynağın güvenilirliği ile orantılı olan ağırlıklar atayabilirsiniz, böylece daha güvenilir kaynakların nihai birleşik tahmin üzerinde daha büyük etkisi olur. Sizin durumunuzda güvenilirliği hakkında herhangi bir bilgiye sahip değilsiniz, böylece tahminlerin her biri aynı ağırlığa sahiptir ve böylece üç tahminin basit aritmetik ortalamasını kullanabilirsiniz.
0%×.33+50%×.33+100%×.33=(0%+50%+100%)/3=50%
@AndyW ve @ArthurB tarafından yorumlarda önerildiği gibi . basit ağırlıklı ortalamaların yanında başka yöntemler de mevcuttur. Literatürde, daha önce aşina olmadığım ortalama uzman tahminleri hakkında bu tür pek çok yöntem açıklanmaktadır, bu nedenle teşekkürler. Ortalama uzman tahminlerinde bazen uzmanların ortalamaya doğru gerileme eğiliminde olduğu gerçeğini düzeltmek istiyoruz (Baron ve diğerleri, 2013) veya tahminlerini daha aşırı hale getiriyor (Ariely ve diğerleri, 2000; Erev ve diğerleri, 1994). Bunu başarmak için bireysel tahmin dönüşümlerini kullanabilirsiniz , örneğin logit fonksiyonupi
logit(pi)=log(pi1−pi)(1)
için oran -inci güça
g(pi)=(pi1−pi)a(2)
buradaki veya daha genel form dönüşümü0<a<1
t ( pben) = pbirbenpbirben+ ( 1 - pben)bir(3)
eğer dönüşüm uygulanmıyorsa, bireysel tahminler daha aşırı yapılırsa, tahminleri daha az aşırı yapılırsa, aşağıdaki resimde gösterilmektedir (bkz. Karmarkar, 1978; Baron et al, 2013). ).a > 1 0 < a < 1a = 1a > 10 < a < 1
Bu tür bir dönüşümden sonra tahminlerin ortalaması alınır (aritmetik ortalama, medyan, ağırlıklı ortalama veya başka bir yöntem kullanılarak). Eğer denklemler (1) veya (2) kullanılmışsa, sonuçların (1) için ters logit ve (2) için ters oranlar kullanılarak geri dönüştürülmesi gerekir . Alternatif olarak, geometrik ortalama kullanılabilir (bakınız Genest ve Zidek, 1986; cf. Dietrich and List, 2014).
p^= ∏N-i = 1pwbenbenΠN-i = 1pwbenben+ ∏N-i = 1( 1 - pben)wben(4)
veya Satopää ve arkadaşları tarafından önerilen yaklaşım (2014)
p^= [ ∏N-i = 1( pben1 - pben)wben]bir1 + [ ∏N-i = 1( pben1 - pben)wben]bir(5)
burada ağırlıktır. Çoğu durumda, eşit ağırlıkta , başka bir seçenek öneren önceden belirlenmiş bir bilgi olmadığı sürece kullanılır . Bu yöntemler, ortalama uzman tahminlerinde yetersiz veya fazla güvenilimi düzeltmek için kullanılır. Diğer durumlarda, tahminlerin daha fazla veya daha az aşırıya dönüştürülmesinin haklı olup olmadığını düşünmelisiniz, çünkü sonuçta elde edilen toplam tahminin, en düşük ve en büyük bireysel tahminde belirtilen sınırların dışına çıkmasına neden olabilir.wbenwben=1/N
Eğer varsa önsel yağmur olasılığı hakkında bilgi size verilen tahminleri güncellemek için Bayes teoremini uygulayabilir önsel yağmur olasılığını burada anlatıldığı gibi benzer bir şekilde . Uygulanabilecek basit bir yaklaşım da vardır, yani tahminlerinizin ağırlıklı ortalamasını hesaplayın (yukarıda açıklandığı gibi), önceki olasılık , bu IMDB örneğinde olduğu gibi önceden belirlenmiş bir ağırlıkta ile ek veri noktası olarak ele alındı ( ayrıca bkz. kaynak veya tartışma için burada ve burada ; bkz. Genest ve Schervish, 1985), yanipiπwπ
p^=(∑Ni=1piwi)+πwπ(∑Ni=1wi)+wπ(6)
Bununla birlikte, sorunuzdan , probleminizle ilgili herhangi bir priori bilgisine sahip olduğunuzu takip etmiyorsunuzdur, bu nedenle muhtemelen önceden üniforma kullanacaksınız, yani priori yağmur ihtimali varsayalım ve bu, sağladığınız bir örnek olması durumunda çok fazla değişmez. .50%
Sıfırlarla uğraşmak için, birkaç farklı yaklaşım mümkündür. İlk önce yağmur yağma ihtimalinin gerçekten güvenilir bir değer olmadığını fark etmelisiniz , çünkü yağmur yağmasının imkansız olduğunu söyler . Doğal dil işlemede, benzer veriler, genellikle verilerinizde oluşabilecek bazı değerleri gözlemlemediğiniz zaman ortaya çıkar (örneğin, harflerin sıklığını sayıyorsunuz ve verilerinizde nadir görülen bazı harfler hiç oluşmuyor). Bu durumda olasılık için klasik tahmin edici, yani0%
pi=ni∑ini
burada geçtiği bir sayıdır (takım inci değeri kategoriler) kullanarak, verir halinde . Buna sıfır frekans sorunu denir . Bu tür değerler için olasılıklarının sıfır olmadığını (varlar!) Biliyorsunuz , bu nedenle bu tahmin açıkça yanlıştır. Ayrıca pratik bir endişe de var: sıfırlarla çarpma ve bölme, sıfırlara veya tanımsız sonuçlara yol açar, bu nedenle sıfırlarla başa çıkmada sorunludur. i d p i = 0 n i = 0niidpi=0ni=0
Kolay ve yaygın olarak uygulanan düzeltme, sayınıza sabit bir eklemek , böyleceβ
pi=ni+β(∑ini)+dβ
Ortak bir seçim olan , yani önceden göre üniform uygulayarak Laplace arkaya üstünlüğü , Kriçevski-Trofımov tahmin için, ya da Schurmann-Grassberger (1996) için tahmincisi. Bununla birlikte, burada yaptığınız şeyin modelinizde veri dışı (önceki) bilgileri uyguladığınıza dikkat edin, bu nedenle öznel, Bayesian tadı alır. Bu yaklaşımı kullanarak yaptığınız varsayımları hatırlamanız ve dikkate almanız gerekir. Verilerimizde hiçbir sıfır olasılık olmaması gerektiğine dair önceden güçlü bir bilgiye sahip olduğumuz gerçeği, buradaki Bayesci yaklaşımı doğrudan doğrular. Sizin durumunuzda frekanslarınız değil, olasılıklarınız var, o yüzden bazı eklersiniz.β11/21/dsıfırları düzeltmek için çok küçük bir değer. Bununla birlikte, bazı durumlarda bu yaklaşımın kötü sonuçları olabileceğine dikkat edin (örn . Kütüklerle uğraşırken ), bu nedenle dikkatli kullanılmalıdır.
Schurmann, T. ve P. Grassberger. (1996). Sembol dizilerinin entropi kestirimi. Kaos, 6, 41-427.
Ariely, D., Tung Au, W., Bender, RH, Budescu, DV, Dietz, CB, Gu, H., Wallsten, TS ve Zauberman, G. (2000). Ortalama sübjektif olasılık tahminlerinin hakimler arasında ve içindeki tahminler. Deneysel Psikoloji Dergisi: Uygulamalı, 6 (2), 130.
Baron, J., Mellers, BA, Tetlock, PE, Stone, E. ve Ungar, LH (2014). Toplam olasılığı tahmin etmenin iki nedeni daha aşırı tahminler yapmaktır. Karar Analizi, 11 (2), 133-145.
Erev, I., Wallsten, TS ve Budescu, DV (1994). Eşzamanlı ve aşırı güvenirlik: Yargılama süreçlerinde hatanın rolü. Psikolojik inceleme, 101 (3), 519.
Karmarkar, ABD (1978). Öznel ağırlıklı fayda: Beklenen fayda modelinin açıklayıcı bir uzantısı. Örgütsel davranış ve insan performansı, 21 (1), 61-72.
Turner, BM, Steyvers, M., Merkle, EC, Budescu, DV ve Wallsten, TS (2014). Yeniden kalibrasyon yoluyla tahmin toplama. Makine öğrenmesi, 95 (3), 261-289.
Genest, C. ve Zidek, JV (1986). Olasılık dağılımlarını birleştirmek: bir eleştiri ve açıklamalı bir kaynakça. İstatistiksel Bilim, 1 , 114–135.
Satopää, VA, Baron, J., Foster, DP, Mellers, BA, Tetlock, PE ve Ungar, LH (2014). Basit bir logit model kullanarak çoklu olasılık tahminlerini birleştirmek. Uluslararası Tahmini Dergisi, 30 (2), 344-356.
Genest, C. ve Schervish, MJ (1985). Bayesian güncellemesi için uzman kararlarının modellenmesi. İstatistiklerin Annals , 1198-1212.
Dietrich, F. ve List, C. (2014). Olasılıklı Düşünme Havuzu. (Yayınlanmamış)