Bootstrap'i Bayesian perspektifinden yorumlamak mümkün mü?


43

Tamam, bu beni geceleri ayakta tutan bir soru.

Bootstrap prosedürü bazı Bayesian prosedürlerine yaklaşıyor olarak yorumlanabilir mi (Bayesian bootstrap hariç)?

Gerçekten tutarlı ve anlaşılması kolay bulduğum istatistiklerin Bayesian "yorumunu" gerçekten seviyorum. Ancak, çok basit olan bootstrap prosedürü için de bir zayıflık var, ancak birçok durumda makul çıkarımlar var. Önyükleme işleminin bir anlamda posterior bir dağılıma yaklaştığını bilseydim, bootstrapping ile daha mutlu olurdum.

"Bayesian açılış botunu" biliyorum (Rubin, 1981), ancak benim açımdan bootstrap versiyonunun standart bootstrap kadar problemli olduğunu düşünüyorum. Sorun, hem klasik hem de Bayesian önyükleme yaparken, yani dağılımın olası değerleri, sadece önceden gördüğüm değerlerdir. Bu garip model varsayımları hala önyükleme prosedürlerinin sağladığı çok makul çıkarımları nasıl sağlayabilir? Önyüklemenin özelliklerini araştıran makaleler arıyordum (örneğin, Weng, 1989), ancak memnun olduğum konusunda net bir açıklama bulamadım.

Referanslar

Donald B. Rubin (1981). Bayesian Bootstrap. Ann. Devletçi. Cilt 9, Sayı 1, 130-134.

Chung-Sing Weng (1989). Bayesian Bootstrap Mean'in İkinci Dereceden Asimptotik Bir Özelliği Üzerine. İstatistiklerin Annals , Vol. 17, No. 2, sayfa 705-710.


3
Ben sadece önyükleme bay bay "önyükleme" açıklamaları araştırıyor "bir bayesian modeli olarak bootstrap" ( sumsar.net/blog/2015/04/… ) hakkında bir blog yazısı yazdı . Yukarıdaki soruları doğrudan cevaplamıyor, ancak önyüklemenin ne olduğunu ve ne yaptığını netleştirdiğini umuyorum.
Rasmus Bååth

Çok ve secchi (1996) bayes parametrik olmayan prediktif çıkarım ve önyükleme tekniklerini okuyun. Thay tam olarak amacına dikkat et!

Yanıtlar:


30

Hastie, Tibshirani ve Friedman'ın İstatistiksel Öğrenme Öğeleri Bölüm 8.4, “Önyükleme ve Bayesci Çıkarım Arasındaki İlişki” dir. Bu tam olarak aradığın şey olabilir. Elimde bağlantı olmasa da, bu kitabın bir Stanford web sitesinde ücretsiz olarak erişilebilir olduğuna inanıyorum.

Düzenle:

İşte, yazarların çevrimiçi olarak özgürce kullanabildiği kitabın bir bağlantısı:

http://www-stat.stanford.edu/~tibs/ElemStatLearn/

272 Sayfasında, yazarlar yazmak:

Bu anlamda, önyükleme dağılımı parametremiz için (yaklaşık) parametrik olmayan, bilgi vermeyen bir arka dağılım gösterir. Ancak bu önyükleme dağılımı ağrısız bir şekilde elde edilir - önceden bir resmi belirtmek zorunda kalmadan ve arka dağılımdan örnek almak zorunda kalmadan. Dolayısıyla önyükleme dağılımını “fakir bir adamın” Bayes posteri olarak düşünebiliriz. Verileri bozmakla, önyükleme, parametreleri bozma konusunda Bayesian etkisine yaklaşır ve uygulanması genellikle çok basittir.

Bulmacanın bir parçası da, Dvoretzky-Kiefer – Wolfowitz eşitsizliğinden bahseden, "ampirik dağılım fonksiyonunun olasılıkla üstel olarak hızlı bir şekilde gerçek dağıtım fonksiyonuna düzgün bir şekilde dönüştüğünü" gösteren Dvoretzky-Kiefer – Wolfowitz eşitsizliğinden bahseden bu çapraz onaylanmış soruda bulunur .

Bu nedenle, parametrik olmayan tüm önyüklemelerin hepsinde, parametremiz için "(yaklaşık) parametrik olmayan, bilgi vermeyen bir posterior dağılım üreten" ve bu yaklaşımın örneklerin sayısı arttıkça "katlanarak daha hızlı" olduğu bir asimptotik yöntem olarak görülebilir.


3
Her zaman ilgili materyale yapılan atıfları takdir etmemize rağmen, bu bölümün kısa bir özeti varsa, bu cevap büyük ölçüde iyileştirilecektir.
kardinal

1
Bu bölümdeki son bit daha yararlı olabilir: Önyükleme tahmini parametre için yaklaşık parametrik olmayan, bilgilendirici olmayan bir posterior dağılımdır. Tüm bölüm bir okumaya değer.
Fraijo

2
Bağlantı için teşekkürler! Hastie ve ark. sağa, parametrik olmayan boostrap ile Bayesian önyükleme arasında bir yazışma gösteriyorlar ve öncekinin ikinciye yaklaştığını iddia ediyorlar. Önyüklemenin (bayesyen ya da değil) neden ilk başta mantıklı çıkarımlara yol açtığı hakkında çok fazla yazmıyorlar. Umduğum şey şuydu: "[bazı genel koşullar altında] önyükleme parametresi parametrenin / istatistiklerin gerçek posterior dağılımına [bir şey] olan ve [buna ve buna] bağlı olan bir hatayla yaklaşıyor".
Rasmus Bååth

Cevabımı geliştirmedeki yardımın için teşekkürler. Önyükleme işleminin neden işe yaradığını duyduğum en net açıklama, az önce topladığınız örneğin, toplam nüfusa sahip olduğunuz en iyi örnek olduğudur. Ama bunu daha resmi olarak koymak için bir olasılıkçıya yetmiyorum.
EdM

Hatırlarsam, bu tartışmayı yaparlar, bir NN'i önyüklerler ve Radford Neal tarafından tamamen bir Bayesian NN ile yaratılırlar. Bence bu bir şeyler söylüyor, ne olduğuna emin değilim.
Adam

3

Bu konuyla ilgili gördüğüm en son makale:

@article{efr13bay,
author={Efron, Bradley},
title={Bayesian inference and the parametric bootstrap},
journal={Annals of Applied Statistics},
volume=6,
number=4,
pages={1971-1997},
year=2012,
doi={10.1214/12-AOAS571},
abstract={Summary: The parametric bootstrap can be used for the efficient
    computation of Bayes posterior distributions. Importance sampling formulas
    take on an easy form relating to the deviance in exponential families and
    are particularly simple starting from Jeffreys invariant prior. Because of
    the i.i.d. nature of bootstrap sampling, familiar formulas describe the
    computational accuracy of the Bayes estimates. Besides computational
    methods, the theory provides a connection between Bayesian and frequentist
    analysis. Efficient algorithms for the frequentist accuracy of Bayesian
    inferences are developed and demonstrated in a model selection example.},
keywords={Jeffreys prior; exponential families; deviance; generalized linear
    models},
classmath={*62F15 (Bayesian inference)
62F40 (Resampling methods)
62J12 (Generalized linear models)
65C60 (Computational problems in statistics)}}

2
Makaleyi yorumlamam, belirli bir modelin arka dağılımını hesaplamak için bir önyükleme yöntemini, yani örneğin metropol örneklemesi yerine kullanılabilecek bir yöntemi tanımlamasıdır. Makalenin parametrik olmayan bootstrap model varsayımları ve Bayesian tahmini arasındaki bağlantıyı tartıştığını görmüyorum ...
Rasmus Bååthth

1
Bunu yapmak için iddia ediyor. Makaleyi ayrıntılı olarak okumadım.
Frank Harrell

5
Frank: Efron'un bu makalesini okumaktan pek bir şey alamadım - ne olduğunu, olasılıktan başlayıp arkaya gitmeye çalışan (genellikle işe yarayacak) sıralı bir önem örneği olarak görebildiğini. Rubin'in 1981 belgesindeki amacı, önyüklemenin uygunluğunu sorgulamaktı, ancak Efron görünüşte tam tersi görünüme kavuştu. David Draper, bu yaz JSM kursunda tekrar gördü ve örneklemedeki olanakların çoğunu görmek haricinde, kötü sonuçlandı. Ama buraya bakın normaldeviate.wordpress.com/2013/06/12/…
phaneron

1

Ben de hem bootstrapping hem de Bayes teoremi tarafından baştan çıkarıldım, ancak Bayes bakış açısıyla bakana kadar bootstrapping'in gerekçelerini tam olarak anlayamadım. O zaman - aşağıda açıkladığım gibi - önyükleme dağılımı, önyükleme işleminin arkasındaki (a?) Mantığını belirgin hale getiren ve aynı zamanda yapılan varsayımları netleştirme avantajına sahip olan Bayesçi bir arka dağılım olarak görülebilir. Aşağıdaki argümanın ve yapılan varsayımların daha fazla detayı https://arxiv.org/abs/1803.06214 (sayfa 22-26) 'da verilmiştir.

Örnek olarak, http://woodm.myweb.port.ac.uk/SL/resample.xlsx adresinde e-tabloda ayarlanan bir örnek olarak (ekranın altındaki önyükleme sekmesini tıklayın) ortalama 60 değerinde 9 ölçüm örneği. E-tabloyu bu örnekten değiştirilen 1000 örnek üretmek için kullandığımda ve araçları en yakın eşit sayıya yuvarladığımda, bu araçların 82'si 54 idi. 9'un örneklerinin ortalamalarının ne kadar değişken olabileceğini görmek için örneği bir "taklit" popülasyonu olarak kullanmak, bu nedenle bir örnek ortalamanın popülasyon ortalamasının altında 6 olması olasılığını ortaya koymaktadır (bu durumda taklit popülasyonu, ortalama 60 olan örnek)% 8.2'dir. Ve yeniden örnekleme histogramındaki diğer çubuklar hakkında da benzer bir sonuca varırız.

Şimdi, hakikatin gerçek popülasyonun ortalamasının 66 olduğunu hayal edelim. Eğer öyleyse, örnek ortalamanın 60 (yani Veri) olduğu ihtimaline dair tahminimiz% 8,2 (yukarıdaki paragraftaki sonucu kullanarak) bu 60, varsayılmış nüfus ortalamasının 66 altında 6 dır). Bunu şöyle yazalım

P (Veriler Ortalama = 66) =% 8,2

ve bu olasılık, yeniden örnekleme dağılımındaki 54 x değerine tekabül eder. Aynı argüman her 0, 2, 4 ... 100 ortalamaları için geçerlidir. Her durumda olasılık yeniden örnekleme dağılımından gelir - ancak bu dağılım 60'ın ortalamasına yansır.

Şimdi Bayes teoremini uygulayalım. Söz konusu ölçüm sadece 0 ile 100 arasında bir değer alabilmektedir, bu yüzden en yakın çift sayıya yuvarlama popülasyon ortalaması için olasılıklar 0, 2, 4, 6, .... 100'dür. Eğer önceki dağılımın düz olduğunu varsayarsak, bunların her birinin% 2 (1 dp'ye kadar) önceliği vardır ve Bayes teoremi bize şunu söyler:

P (PopMean = Verilmiş 66 veri) =% 8,2 *% 2 / P (Veri)

nerede

P (Veri) = P (PopMean = 0 Verilmiş Veriler) *% 2 + P (PopMean = 2 Verilmiş Veriler) *% 2 + ... + P (PopMean = 100 Veriler Verilmiş) *% 2

Şimdi% 2'yi iptal edebiliriz ve olasılıkların yeniden örnekleme dağılımından gelenler olduğundan, olasılıkların toplamının 1 olması gerektiğini hatırlayabiliriz. Bu bizi sonuçlandırıyor

P (PopMean = 66)% 8.2 =

% 8,2'nin 54'e (66 yerine) karşılık gelen yeniden örnekleme dağılımındaki olasılık olduğunu hatırlatarak, posterior dağılım basitçe örnek ortalamasına yansıyan yeniden örnekleme dağılımıdır (60). Ayrıca, yeniden örnekleme dağılımı asimetrilerin rastgele olduğu simetrikse - bu ve diğer birçok durumda olduğu gibi, yeniden örnekleme dağılımını posterior olasılık dağılımına özdeş olarak alabiliriz.

Bu argüman çeşitli varsayımlarda bulunur, asıl olan önceki dağıtımın tek tip olmasıdır. Bunlar, yukarıda belirtilen makalede daha ayrıntılı olarak yazılmıştır.


Rubin tarafından tanıtılan bir Bayesian önyükleme gibi bir şey var. Ama bahsettiğin şeyin bu olduğunu sanmıyorum. Efron tarafından tanıtılan sıradan önyükleme gerçekten sık sık bir kavramdır.
Michael Chernick
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.