Bayes güvenilir aralık prosedürleri için karar teorik gerekçesi nedir?


20

(Bunu neden yazdığımı görmek için, bu soruya verdiğim yanıtın altındaki yorumları kontrol edin .)

Tip III hataları ve istatistiksel karar teorisi

Yanlış soruya doğru cevabı vermek bazen Tip III hatası olarak adlandırılır. İstatistiksel karar teorisi, karar almanın belirsizlik altında resmileştirilmesidir; tip III hatalarından kaçınmaya yardımcı olabilecek kavramsal bir çerçeve sağlar. Çerçevenin ana unsuru kayıp fonksiyonu olarak adlandırılır . İki argüman alır: birincisi dünyanın gerçek durumudur (ilgili altkümesi) (örneğin, parametre tahmin problemlerinde, gerçek parametre değeri θ ); İkinci olası eylemlerin sette bir elementtir (parametre tahmini sorunları, örneğin, tahmin θ )θ^). Çıktı, dünyanın olası her gerçek durumuna göre olası her eylemle ilişkili kaybı modeller. Örneğin, parametre tahmin problemlerinde, iyi bilinen bazı kayıp fonksiyonları:

  • mutlak hata kaybı L(θ,θ^)=|θθ^|
  • karesel hata kaybı L(θ,θ^)=(θθ^)2
  • Hal Varian sitesindeki LINEX kaybı L(θ,θ^;k)=exp(k(θθ^))k(θθ^)1, k0

Soruyu bulmak için cevabı inceleme

Bir tip III hatalarının, doğru bir kayıp fonksiyonunun formüle edilmesine ve karar-teorik yaklaşımın geri kalan kısmına (burada ayrıntılı olarak açıklanmadan) odaklanarak önlenebileceği bir durum vardır. Bu benim özetim değil - sonuçta, istatistikçiler böyle bir yaklaşımdan türetilmemiş olsalar bile iyi çalışan birçok teknik ve yöntemle iyi donanımlılar. Ama sonuçta, bana göre, istatistikçilerin büyük çoğunluğu istatistiksel karar teorisini bilmiyor ve umursamıyorlar ve bence kaçırıyorlar. Bu istatistikçiler için, Tip III hatadan kaçınma açısından istatistiksel karar teorisini değerli bulabilmelerinin nedeni, önerilen herhangi bir veri analizi prosedürünün sorulması için bir çerçeve sağlamasıdır:prosedür hangi kayıp fonksiyonu (varsa) ile en iyi şekilde başa çıkıyor?Yani, hangi karar alma durumunda, en iyi cevabı veriyor?

Posterior beklenen kayıp

Bayesci bir bakış açısından, kayıp fonksiyonu ihtiyacımız olan tek şeydir. Biz hemen hemen karar teorisi geri kalanını atlayabilirsiniz - neredeyse tanım gereği, yapılacak en iyi şey kaybını en aza indirmek arka beklenen etmektir olduğunu, aksiyon bulmak a bu en aza indirir L~(a)=ΘL(θ,a)p(θ|D)dθ .

? Özellikle, Wald '- (Ve olmayan Bayes perspektifler Well gelince, bu frequentist karar teorisinin bir teoremi olan Komple Sınıf Teoremi o - Optimum eylem her zaman olacaktır Bayes posterior beklenen kaybını en aza indirmek açısından bazı ) (muhtemelen yanlış Bu sonuçla ilgili zorluk, bir varoluş teoreminin hangi kullanımdan önce rehberlik vermediğidir.Ancak tam olarak hangi sorunun olduğunu anlamak için "tersine çevirebileceğimiz" prosedür sınıfını verimli bir şekilde kısıtlar. Özellikle, Bayesci olmayan herhangi bir prosedürü tersine çevirmenin ilk adımı, (eğer varsa) hangi Bayesci prosedürü çoğalttığını veya yaklaşık olarak tahmin ettiğini bulmaktır.)

Hey Cyan, bunun bir Soru-Cevap sitesi olduğunu biliyorsun, değil mi?

Bu da beni - sonunda - istatistiksel bir soruya getiriyor. Bayesci istatistiklerde, tek değişkenli parametreler için aralık tahminleri sağlarken, iki yaygın güvenilir aralık prosedürü, kantil bazlı güvenilir aralık ve en yüksek posterior yoğunluk güvenilir aralığıdır. Bu prosedürlerin ardındaki kayıp fonksiyonları nelerdir?


Çok hoş. Ancak bu prosedürleri haklı çıkaran tek kayıp fonksiyonları bunlar mı?
konuk

1
@Cyan >> Benim için soruyu sorduğunuz ve cevapladığınız için teşekkür ederim :) Tüm bunları okuyacağım ve mümkün olduğunca değerlendireceğim.
Stéphane Laurent

4
Berger'in İstatistiksel karar teorisi ve Bayesci analizden ilginç alıntı : "güvenilir kümeleri net bir karar teorik rolüne sahip olarak görmüyoruz ve bu nedenle güvenilir bir küme seçiminde 'optimallik' yaklaşımlarının temkinli olduğunu görüyoruz"
Simon Byrne

1
@Simon Byrne >> 1985 uzun zaman önceydi; Bunu hala düşünüp düşünmediğini merak ediyorum.
Camgöbeği

1
@Cyan: Bilmiyorum, ancak karar teorisi Bayesian istatistiklerinin son 27 yılda çok fazla değişmeyen bir kısmı (birkaç ilginç sonuç oldu, ancak Berger'in kitabı hala standart referanstır), özellikle popülerlikle karşılaştırıldığında minimax sık istatistiklerle sonuçlanır.
Simon Byrne

Yanıtlar:


15

Tek değişkenli aralık tahmininde, olası eylemler kümesi, aralığın bitiş noktalarını belirten sıralı çiftler kümesidir. Bu kümenin bir öğesinin ile temsil edilmesine izin verin .(a,b), ab

En yüksek arka yoğunluk aralıkları

Posterior yoğunluk . En yüksek posterior yoğunluk aralıkları, gerçek değeri içermeyen bir aralığı cezalandıran ve aynı zamanda uzunlukları ile orantılı olarak aralıkları cezalandıran kayıp işlevine karşılık gelir:f(θ)

,LHPD(θ,(a,b);k)=I(θ[a,b])+k(ba),0<kmaxθf(θ)

burada olan gösterge fonksiyonu . Bu beklenen posterior kaybı verirI()

.L~HPD((a,b);k)=1Pr(aθb|D)+k(ba)

Ayar , parametre alanının iç kısmında yerel bir optimum için gerekli koşulu verir:f(a)=f(b)=kaL~HPD=bL~HPD=0f(a)=f(b)=k - beklendiği gibi HPD aralıkları için kural.

Formu HPD aralıkları monoton artan dönüşümü değişmez değildir neden da bir fikir verir g ( θ ) parametrenin. Θ ile uzay HPD aralığı dönüştürülmüştür g ( θ ) alanı farklıdır g ( θ ) ile uzay HPD aralığı iki aralıklarında farklı kaybı fonksiyonlara karşılık gelir, çünkü: g ( θ )L~HPD((a,b);k)g(θ)θg(θ)g(θ)g(θ)boşluk HPD aralığı dönüştürülmüş bir uzunluk cezasına karşılık gelir .k(g(b)g(a))

Quantile dayalı güvenilir aralıklar

Kayıp fonksiyonu ile nokta tahminini göz önünde bulundurun

.Lq(θ,θ^;p)=p(θ^θ)I(θ<θ^)+(1p)(θθ^)I(θθ^), 0p1

Posterior beklenen kayıp

L~q(θ^;p)=p(θ^E(θ|θ<θ^,D))+(1p)(E(θ|θθ^,D)θ^) .

Ayar verimleri örtülü denklemiddθ^L~q=0

Pr(θ<θ^|D)=p

θ^(100p)

Böylece, kantil bazlı aralık tahminleri elde etmek için, kayıp fonksiyonu

LqCI(θ,(a,b);pL,pU)=Lq(θ,a;pL)+Lq(θ,b;pU).


1
Another way to motivate this is to re-write the loss function as a (weighted) sum of the width of the interval plus the distance, if any, by which the interval fails to cover the true θ.
guest

Is there any other way to think of quantile based intervals that doesn't directly reference quantiles or the length of the interval. I was hoping for something like "the quantile interval maximizes/minimizes the average/minimum/maximum/etc. something-measure"
Rasmus Bååth

@RasmusBååth, you're basically asking, "what are the necessary conditions on the loss function for quantile intervals to be the solution to the minimization of posterior expected loss?" My intuition, just from the way the math works in the forward direction, is that this is pretty much it. Haven't proven it, though.
Cyan

So I'm not sure about a loss function, but I know of a procedure that, depending on the point loss function L, will result in either a HPD or a quantile interval. Assume you have random samples s draw from the posterior. 1. Select the point in s with the lowest posterior loss and add that point to your interval. 2. Remove that point from s, due to this removal the posterior loss for the remaining points in s might now change (depending on L). 3. Be happy if your interval has the required coverage, otherwise repeat from (1). L = L0 gives HPD, L = L1 gives quantile interval.
Rasmus Bååth

5
just mentioning that Section 5.5.3 of Bayesian Choice covers the loss-based derivation of credible sets...
Xi'an

1

Intervals of minimal size

One obvious choice of a loss function for interval selection (both Bayesian and frequentist) is to use the size of the intervals as measured in terms of the marginal distributions. Thus, start with the desired property or the loss function, and derive the intervals that are optimal. This tends not to be done, as is exemplified by the present question, even though it is possible. For Bayesian credible sets, this corresponds to minimize the prior probability of the interval, or to maximize the relative belief, e.g., as outlined in Evans (2016). The size may also be used to select frequentist confidence sets (Schafer 2009). The two approaches are related and can be implemented fairly easily via decision rules that preferentially included decisions with large pointwise mutual information (Bartels 2017).

Bartels, C.,2017. Using prior knowledge in frequentist tests. figshare. https://doi.org/10.6084/m9.figshare.4819597.v3

Evans, M., 2016. Measuring statistical evidence using relative belief. Computational and structural biotechnology journal, 14, pp.91-96.

Schafer, C.M. and Stark, P.B., 2009. Constructing confidence regions of optimal expected size. Journal of the American Statistical Association, 104(487), pp.1080-1089.


I see you're citing Evans per Keith O'Rourke's suggestion (andrewgelman.com/2016/07/17/…). I really like Evans's stuff.
Cyan

I'm very pleased having been informed by Keith on work that starts differently but ends up at similar conclusions! Important to cite this.
user36160
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.