Bayes ve sık sık nokta tahmin edicileri hangi koşullar altında çakışır?


17

Düz bir öncekiyle, ML (sıklık - maksimum olasılık) ve MAP (Bayes - maksimum posteriori) tahmin edicileri çakışır.

Bununla birlikte, daha genel olarak, bazı kayıp fonksiyonlarının iyileştiricileri olarak türetilen nokta tahmin edicilerden bahsediyorum. yani

(Bayesian)  x (

x^(.)=argminE(L(Xx^(y))|y) (Bayesian) 
x^(.)=argminE(L(xx^(Y))|x)(Frequentist)

burada E beklenti operatörüdür, L (sıfır minimize) kayıp fonksiyonu x^(y) veri alındığında, tahmin edilmektedir y parametresi, x ve rastgele değişkenler büyük harf ile belirtilmiştir.

Herkes L , x ve pdf y, öngörülen doğrusallık ve / veya tarafsızlık, tahmin edicilerin çakışacağı herhangi bir koşul biliyor mu ?

Düzenle

Yorumlarda belirtildiği gibi, Frequentist problemi anlamlı kılmak için tarafsızlık gibi tarafsızlık şartı gereklidir. Düz öncelikler de bir ortaklık olabilir.

Bazı cevapların verdiği genel tartışmaların yanı sıra, soru gerçekten de gerçek örnekler sunmakla ilgilidir . Bence önemli olan lineer regresyondan geliyor:

  • X = ( D ' D ) - 1 D ' yx^=(DD)1Dy MAVİ (olup Gauss-Markov teoremi ), başka bir deyişle doğrusal tarafsız tahminlerin arasında frequentist MSE en aza indirir.
  • Eğer (X,Y) Gaussian ve önceki x^=(DD)1Dy olan "arka", ortalama en aza indirir herhangi bir konveks fonksiyon kaybı Bayes ortalama kaybı.

Burada , sırasıyla frekansçı / Bayesci lingo'da veri / tasarım matrisi olarak biliniyor gibi görünmektedir.D


Cevabın daha önce düzleşmesini istediğinizi varsayalım? Aksi takdirde, ilginç genel durumlarda tahminlerin aynı olması makul olabilir.
user56834


@JeremiasK, belki bir cevapta bunun hakkında bir şeyler açıklayabilirsin?
user56834

1
@ Programmer2134 Malzemeyle yeterince rahat olsaydım yapardım, ama yapmam. Yaptıklarının, CLT'nin Bayesli bir karşılığı olduğunu ve belirli bir 'posterior konsantrasyon oranları' ile örnek boyutunu artırdıkça posterior parametresinin parametre alanınızdaki bir noktaya ne kadar hızlı yoğunlaştığını söyleyen ve daha sonra temelde sona erdiğini biliyorum. Bayes kestirimcileriniz için sıkça kullanılan tutarlılık garantileri bulabilir.
Jeremias K

Yanıtlar:


7

Sık ilginç tahminci kavramı kesinleşmedikçe, soru ilginç ama biraz umutsuz . Bu kesinlikle soruda belirtilen kişi değil en aza indirilmesi için yanıt yana olan X ( y ) = x tüm Y 'in sivri dışarı olarak sProgrammer2134 cevabı. Temel mesele, bir tahmin problemi için, ek kısıtlayıcılar veya tahminci sınıfları getirmeden tek bir sık ​​sık tahmin edicinin bulunmamasıdır. Bunlar olmadan, tüm Bayes tahmincileri de sık sık tahmin edicilerdir.

x^(.)=argminE(L(x,x^(Y))|x)
x^(y)=xy

Yorumlarda belirtildiği gibi , tarafsızlık böyle bir kısıtlama olabilir, bu durumda Bayes tahmincileri hariç tutulur. Ancak bu sık görüş, diğer sık ​​görüş kavramlarıyla çelişir.

  1. kabul edilebilirlik, çünkü James-Stein fenomeni tarafsız tahmin edicilerin kabul edilemez olabileceğini gösterdi (kayıp fonksiyonuna ve problemin boyutuna bağlı olarak);
  2. tarafsızlık dönüşümler altında tutmadığından, yeniden parametrelendirme altında değişmezlik.

Artı tarafsızlık sadece sınırlı bir sınıflandırma problemleri sınıfı için geçerlidir. Bununla, belirli bir parametre veya dönüşüm h ( θ ) ' nin tarafsız tahmin edicilerinin sınıfı çoğu zaman boştur.θh(θ)

Kabul edilebilirlikten bahsetmişken, başka bir sıklık kavramı, kabul edilebilir tek tahmincilerin Bayes tahmincisi olduğu ve tersine olduğu ortamlar vardır . Bu tür ayarlar, 1950'lerde Abraham Wald tarafından kurulan tüm sınıf teoremleri ile ilgilidir. (Aynısı uygun Haar ölçüsü altında Bayes olan en iyi değişmez tahminciler için de geçerlidir.)


1
Tahmincilerin sınıfını, minimize etme probleminin iyi tanımlanması ve dejenere olmaması için (tarafsızlık gerektirmekten başka), Bayes'e daha yakın olan başka kanonik yollar var mı?
user56834

3

Genel olarak, daha önce dejenere bir daire kullanmazsanız, sık ve Bayesci tahminciler çakışmaz. Bunun ana nedeni şudur: Frekansçı tahminciler genellikle tarafsız olmaya çalışırlar. Örneğin, sık sık genellikle asgari varyans yansız tahmin edicisini bulmaya çalışır ( http://en.wikipedia.org/wiki/Minimum-variance_unPrice_estimator ). Bu arada, dejenere olmayan tüm Bayes tahmincileri önyargılıdır (sıklık yanlılığı anlamında). Bkz. Örneğin, . Http://www.stat.washington.edu/~hoff/courses/581/LectureNotes/bayes.pdf , Teorem 5.

Özetlemek gerekirse: Tüm Bayes tahmincileri önyargılıyken, popüler sık ​​sık tahmin edicilerin çoğu tarafsız olmaya çalışmaktadır. Bu nedenle Bayes ve sık sık tahmin ediciler nadiren çakışır.


5
Bu popüler iddiaların doğruluğunu merak ediyorum, "popüler frekansçı tahmincilerin çoğu" ML'dir ve önyargılı olma eğilimindedirler (parametrelendirmeye bağlı olarak). Dahası, iyi bir frekansçı kayıp ve kabul edilebilirlik konusunda derin endişe duymaktadır; bu teorinin önemli bir kısmı, kabul edilebilir prosedürlerin Bayes prosedürlerinden geldiğini kabul eder, bu nedenle - en azından bu geniş anlamda - frekansçı teorinin kalbi Bayes tahmincilerine dayanır! "Sık sık", "en çok" ve "nadiren" hakkında daha net olsanız ve bunu kanıtlarla desteklerseniz bakış açınıza ikna olabilirim.
whuber

@whuber İyi bir nokta - cevabım belki biraz basitti. Gerçek frekansçılar önyargılı prosedürler kullanma eğilimindedir (örneğin L1 veya L2 cezalandırılmış regresyon) veya hatta resmi olarak Bayesci prosedürler kullanabilirler. Bununla birlikte, bence tarafsız tahmin ediciler en sık yapılan analizlerin başlangıç ​​noktasıdır. Örneğin, Lehmann & Casella'nın Nokta Sıklığı Teorisi'nin ilk etli bölümü (sıklık tahmini hakkındaki standart metinlerden biri) tarafsızlık ile ilgilidir.
Stefan Wager

5
Tamam, (+1). Ama son argümanınızı eğlenceli buluyorum: sonuçta, bir kitap bir yerden başlamalı ve genellikle bu başlangıç ​​noktası, pratik önemi için değil, sadeliği ve erişilebilirliği için seçilir. Aynı akıl yürütmeyle, modern matematiğin çoğunun öncelikle mantık ve küme teorisi ile ilgili olduğunu iddia edebilirsiniz, çünkü bunlar çoğu matematik ders kitabında ilk bölümü oluşturur! İstatistiksel uygulamanın daha iyi bir yansıması Lehmann & Casella'nın son yarısı olabilir - orada tartışılanlara bir göz atın :-).
whuber

"unless you use a degenerate flat prior". Well this is an interesting special case to think about, isn't it?
user56834

Also, his question is about whether they would theoretically coincide under certain conditions, not whether the estimators that are used in practice coincide.
user56834

3

This is not a full answer, but while these two argmin's look very similar, they are fundamentally different in a way: the Bayesian one minimizes the expression with respect to a single value (that is, the value of x^(y), depending on y).

But the Frequentist one has to minimize the loss function with respect to a single value for every value that x could take, without knowing x. This is because the minimum of the function f(x,x^)=E(L(xx^(Y))|x) depends on x, even though we have to minimize it without knowing x. (note that if we would simply minimize f(x,x^) w.r.t. x^, we would simply get the minimizing value of x^=x.) The Frequentist problem is therefore undefined. I am not sure whether it is even possible to make it well-defined.


1
Good points. I think you're right about the frequentist problem. The way to render it well-posed is to restrict the class of estimators. From Lehmann & Casella: "So far, we have been concerned with finding estimators which minimize the risk R(θ,δ) at every value of θ. This was possible only by restricting the class of estimators to be considered by an impartiality requirement such as unbiasedness or equivariance."
Patrick

1

There may exist no answer to this question.

An alternative could be to ask for methods to determine the two estimates efficiently for any problem at hand. The Bayesian methods are pretty close to this ideal. However, even though minimax methods could be used to determine the frequentist point estimate, in general, the application of the minimax method remains difficult, and tends not to be used in practice.

An other alternative would be to rephrase the question as to the conditions under which Bayesian and frequentist estimators provide “consistent” results and try to identify methods to efficiently calculate those estimators. Here "consistent" is taken to imply that Bayesian and frequentist estimators are derived from a common theory and that the same criterion of optimality is used for both estimators. This is very different from trying to oppose Bayesian and frequentist statistics, and may render the above question superfluous. One possible approach is to aim, both for the frequentist case and the Bayesian case, at decision sets that minimize the loss for a given size, i.e., as proposed by

Schafer, Chad M, and Philip B Stark. "Constructing confidence regions of optimal expected size." Journal of the American Statistical Association 104.487 (2009): 1080-1089.

It turns out that this is possible - both for the frequentist and the Bayesian case - by including by preference observations and parameters with large pointwise mutual information. The decision sets will not be identical, since the question being asked is different:

  • Independent of what is the true parameter, limit the risk of making wrong decisions (the frequentist view)
  • Given some observations, limit the risk of including wrong parameters into the decision set (Bayesian view)

However the sets will overlap largely and become identical in some situations, if flat priors are used. The idea is discussed in more detail together with an efficient impementation in

Bartels, Christian (2015): Generic and consistent confidence and credible regions. figshare. https://doi.org/10.6084/m9.figshare.1528163

For informative priors, the decision sets deviate more (as is commonly known and was pointed out in the question and in answers above). However within the consistent framework, one obtains frequentist tests, that guarantee the desired frequentist coverage, but take into account prior knowledge.

Bartels, Christian (2017): Using prior knowledge in frequentist tests. figshare. https://doi.org/10.6084/m9.figshare.4819597

The proposed methods still lack an efficient implementation of marginaization.


Could you elaborate in your question more specifically when they would be "consistent"?
user56834

@Programmer2134. Thanks, tried to clarify in the answer.
user36160
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.