MCMC örneklerinden marjinal olasılığın hesaplanması


24

Bu tekrarlayan bir soru ( bu yazıya , bu yazıya ve bu yazıya bakın ), ancak farklı bir dönüşe sahibim.

Genel bir MCMC örnekleyiciden bir grup örneğim olduğunu varsayalım. Her örnek için θ , log olabilirlik logf(x|θ) ve log değerini biliyorum logf(θ). Eğer yardımcı olursa, veri noktası başına log olasılığının değerini de biliyorum, logf(xi|θ) (bu bilgi WAIC ve PSIS-LOO gibi bazı yöntemlerde yardımcı olur).

Marjinal ihtimalin (kaba) bir tahminini, sadece sahip olduğum örneklerle ve muhtemelen birkaç diğer fonksiyon değerlendirmesinde (ancak bir özel MCMC'yi değiştirmeden) elde etmek istiyorum.

Her şeyden önce, masayı temizleyelim. Harmonik tahmin edicinin şimdiye kadarki en kötü tahmin edici olduğunu hepimiz biliyoruz . Hadi devam edelim. Önceden ve posteriorlarla Gibbs örneklemesini kapalı halde yapıyorsanız, Chib'in yöntemini kullanabilirsiniz ; ancak bu davaların dışında nasıl genelleştirileceğinden emin değilim. Örnekleme prosedürünü değiştirmenizi gerektiren yöntemler de vardır (örneğin temperli posteriorlar aracılığıyla ), ancak burada bununla ilgilenmiyorum.

Düşündüğüm yaklaşım, temel dağılımın bir parametrik (veya parametrik olmayan) şekli ile yaklaştırılması g(θ)ve ardından normalizasyon sabitinin Z bir 1-D optimizasyon problemi (yani, arasındaki bir hatayı en aza indiren Z olduğunu bulmaktan ibarettir. Zg(θ) ve f(x|θ)f(θ) , örnekler üzerinde değerlendirildi). En basit durumda, posteriorun kabaca çok değişkenli normal olduğunu varsayalım, g(θ)çok değişkenli bir normal olarak ve bir Laplace yaklaşımına benzer bir şey elde edin (modun konumunu iyileştirmek için birkaç ek işlev değerlendirmesi kullanmak isteyebilirim). Bununla birlikte, g(θ) gibi çok değişkenli t dağılımlarının değişken bir karışımı gibi daha esnek bir aileyi kullanabilirim .

Bu yöntemin sadece f ( x | θ ) f ( θ ) ' yeZg(θ) makul bir yaklaştığı durumlarda işe yarar , ancak bunun yapmanın neden mantıklı olamayacağına dair herhangi bir sebep veya ihtiyati öykü mü? Tavsiye edebileceğin bir okuma var mı?f(x|θ)f(θ)

Tamamen parametrik olmayan yaklaşım, Gaussian işlemi (GP) gibi bazı parametrik olmayan aileleri, (veya bunun karekök gibi bazı diğer doğrusal olmayan dönüşümleri) ve Bayesian'ye yaklaştırmak için kullanır. altta yatan hedef üzerinde örtük olarak bütünleşmek için kuadratür ( buraya ve buraya bakınız ). Bu ilginç bir alternatif yaklaşım gibi gözükse de, ruh açısından benzer (aynı zamanda, pratisyen hekimlerin benim durumumda hantal olacağına dikkat edin).logf(x|θ)+logf(θ)


6
Bence Chib, S. ve Jeliazkov, I. 2001 "Metropolis'ten marjinal olabilirlik - Hastings çıktısı" normal MCMC çıktılarına genelleşiyor - bu yaklaşımla ilgili deneyimleri duymakla ilgilenecektir. GP'ye gelince - bu temel olarak, diğer problemler için de göz önünde bulundurabileceğiniz posterior emülasyonuna bağlı. Sanırım sorun, yaklaşımın kalitesinden asla emin olamamanız. Bir MCMC örneğinin bir GP modeli için ideal olup olmadığı veya kuyruklara daha fazla yatırım yapıp yapmamanız gerektiği de merak ediyorum.
Florian Hartig

2
(+1) Referans için teşekkürler, açık görünüyor - Kontrol edeceğim. Tüm model tabanlı yaklaşımların sorunlu olabileceği konusunda hemfikirim (Bayesian karesi ile iyi olan şey, ne kadar kalibre edildiğinden emin olmamakla birlikte bir belirsizlik tahmininde bulunmanızdır). Şu an için mütevazı hedefim, "Laplace yaklaşımından daha iyi" bir şey yapmak.
lacerbi

Yanıtlar:


26

Chib ve Jeliazkov (2001) tarafından yapılan uzatma maalesef hızlı bir şekilde pahalı veya çok değişken oluyor, bu da Gibbs örnekleme vakalarının dışında fazla kullanılmamasının bir nedeni.

Orada birçok yolu vardır ve normalizasyon sabiti yaklaşımları olsa da (oldukça çeşitli görüşmelerde gösterdiği gibi tahmin problemi tahmin Sabit atölye slaytlar mevcuttur, biz Warwick Üniversitesi'nde geçen hafta koştu orada ), bazı çözümler doğrudan MCMC çıkışı istismar yok .Z

  1. Bahsettiğiniz gibi, Newton ve Raftery'nin (1994) harmonik ortalama tahmincisi sonsuz bir varyansa sahip olmak için neredeyse her zaman zayıf. Ancak, harmonik ortalama kimliği α ( θ ) yerine sonlu bir destek hedefi kullanarak sonsuz varyans lanetini önlemenin yolları vardır. seçerekαposterior bir HPD bölgenin göstergesi olarak. Bu, kuyrukları harmonik ortalamada çıkararak sınırlı değişkenlik sağlar. (Detaylar bulunacak olanDarren Wraith'le yazdığı bir kağıtve bir denormale sabitler hakkında bölümdekısaca Jean-Michel Marin ile yazılmıştır.), Yöntem MCMC çıkışını geri dönüştürürθ1,...,θMtanımlayarakP( % 20 diyelim) hedef bölgesinin en yüksek değertt(θ)f(x|θ)ve oluşturmaα

    α(θ)π(θ)f(x|θ)dπ(θ|x)=1Z
    αθ1,,θMβπ(θ)f(x|θ)αtopları birliği üzerinde düzgün bir o büyük yoğunlukta merkezli olarak (HPD) simülasyonları ve yarıçap ile p'ye , normalize sabiti tahmin anlamına Z ile verilmektedir Z - 1 = 1θi0ρZ eğerdboyutudurİçeride ISTV melerin RWMAIWi'nin(düzeltmeler topları kesen başvurusunda) ve eğerρasla kesiştiği için topları için yeterince küçük olan (topları iyi sadece bir gösterge olduğu anlamına sıfırdan farklı). AçıklamasıαM2payda bu bir çift toplamı olmasıdırβM2açısından: 1
    Z^1=1βM2m=1Mdouble sum overβM ball centres θi0and M simulations θmI(0,ρ)(mini||θmθi0||){π(θm)f(x|θm)}1/πd/2ρdΓ(d/2+1)1volume of ball with radius ρβMα(θm)π(θm)f(x|θm)
    dθραM2βM2 , her terimi ileθmiçin entegreZ-1.
    1βMi=1βM1Mm=1MU(θi0,ρ)(θm)same as with min×1π(θm)f(x|θm)
    θmZ1
  2. Başka bir yaklaşım, normalizasyon sabitini bir parametreye çevirmektir . Bu istatistiksel bir sapkınlık gibi geliyor ama Guttmann ve Hyvärinen'in (2012) yazdığı yazı beni tam tersine ikna etti. Çok fazla ayrıntıya girmeden, buradaki net fikir, gözlenen log olasılığını n i = 1 f ( x i | θ ) - n log exp f ( x | θ ) d x değerini ortak bir log olasılığına dönüştürmektir. n i = 1 [ fZ

    i=1nf(xi|θ)nlogexpf(x|θ)dx
    yoğunluk fonksiyonu olan bir Poisson noktanın prosesin log olasılık olan exp { f ( x | İçeride ISTV melerin RWMAIWi'nin ) + ν + günlük n }
    i=1n[f(xi|θ)+ν]nexp[f(x|θ)+ν]dx
    exp{f(x|θ)+ν+logn}
    Bu, orijinal olasılığın yukarıdakilerin marjinali gibi görünmemesi için alternatif bir modeldir. Yalnızca modlar çakışır, koşullu mod ν da normalizasyon sabitini sağlar. Uygulamada, yukarıdaki Poisson süreci olasılığı kullanılamıyor ve Guttmann ve Hyvärinen (2012) lojistik bir regresyon yoluyla bir yaklaşım sunuyor. Sorunuzla daha da iyi bağlantı kurmak için Geyer'in tahmini, bir MLE'dir, bu nedenle bir büyütme sorununa çözümdür.
  3. π(θ|x)π(θ|x)g(θ)π(θ|x)g(θ)). Regresörler normalize olsun ya da olmasın, her iki yoğunluğun değerleridir. Bu, farklı hedeflerden örnekleri geri dönüştüren Gelman ve Meng (1997) köprü örneklemesiyle doğrudan bağlantılıdır. Ve daha sonraki sürümleri, Meng'in MLE'si gibi.
  4. Birini belirli bir MCMC örnekleyiciyi çalıştırmaya zorlayan farklı bir yaklaşım Skilling'in iç içe örneklemesidir . Ben [ve diğerleri] yöntemin verimliliği üzerinde bazı çekinceleri var olsa da, benzeri yazılım ile, mevcut astrostatistics ve kozmolojideki oldukça popülerdir multinest .
  5. H0:θ=θ0ξπ1(θ)π2(ξ)H0
    B01(x)=πθ(θ0|x)π1(θ0)
    πθ(θ0|x)θθ0H0:θ=θ0
    m0(x)=Ξf(x|θ0,ξ)π2(ξ)dξ
    ma(x)=Θ×Ξf(x|θ,ξ)π1(θ)π2(ξ)dθdξ

[İşte geçen Aralık ayında bir NIPS atölyesi için normalize edici sabitleri tahmin etme hakkında yazdığım bir dizi slayt .]


2
(+1) İnanılmaz derecede zengin cevap, teşekkür ederim. Bu benim için yararlı olacak ve sanırım, başka birçok insan. Çeşitli yaklaşımlara bir göz atmam biraz zaman alacak ve sonra belirli sorularla geri dönebilirim.
lacerbi,

2
(1) noktasından başlayarak ... ilgili makaleleri okudum. "Düzeltilmiş" harmonik ortalama tahmincisi tam olarak aradığım şey gibi görünüyor . Bir MCMC çıktısı verilen hesaplama düzgün ve kolaydır. Öyleyse ... yakalamak ne? Google Akademik’te yapılan hızlı bir aramadan yola çıkarak, yöntemin yaygın olarak kullanıldığını görünmüyor. Sınırlamaları nelerdir? (yüksek boyutta çok karmaşık posteriorlar için bir sorun haline gelebileceğini düşündüğüm HPD bölgelerini belirleme ihtiyacının yanı sıra). Kesinlikle bir deneyeceğim - ama merak etmem gereken bir şey olup olmadığını merak ediyorum.
lacerbi

2
Birkaç ayrıntı daha ekledim: HPD üniforma uygulamasındaki sorun, HPD bölgesi için uygun bir kompakt yaklaşım bulmaktır. Posterior değerleri yüksek olan noktaların dışbükey gövdesi, bu noktalara ortalanan topların kesişmesine neden olabilir; bu da ikincil normalize edici sabit bir problem oluşturur.
Xi'an

2
@ Xi'an: çok yararlı, teşekkürler! Sorabilir miyim: tüm bu yaklaşımlardan hangisi, kutudan çıkma eğiliminde olan genel bir yaklaşım ararsa şu anda tavsiyeniz ne olurdu (yani, kullanıcının ayarlaması / kontrolü gerekmiyor)? Özellikle düşük (<50) parametreli, normal olmayan posteriorlu ve parametreler arasındaki güçlü korelasyonlu modeller söz konusu olduğunda ilgimi çekecektir.
Florian Hartig

1
Z
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.