Her MCMC yinelemesinde büyük bir veri kümesini alt örnekleyebilir miyim?


8

Sorun: Büyük bir veri kümesi üzerinde posterior çıkarmak için Gibbs örneklemesi yapmak istiyorum. Ne yazık ki, modelim çok basit değil ve bu nedenle örnekleme çok yavaş. Varyasyonel veya paralel yaklaşımları düşünürdüm, ama o zamana kadar gitmeden önce ...

Soru: Her Gibbs yinelemesinde veri kümemden rastgele (değiştirerek) örnek olup olamayacağımı bilmek istiyorum, böylece her adımda öğrenecek daha az örneğim var.

Sezgim, örnekleri değiştirsem bile olasılık yoğunluğunu değiştirmeyeceğim ve Gibbs örneğinin hile fark etmemesi gerektiğidir. Haklı mıyım? Bunu yapan insanların bazı referansları var mı?


1
Bir yana: başka bir fikir, büyük veri kümesinin rastgele alt örnekleri üzerinde çoklu analizler yapmak olacaktır. Bu şekilde çapraz doğrulayabilirsiniz.
varsayımlar

2
Sorunuzu kesin olarak herhangi bir otorite ile cevaplayamıyorum (şüphem sadece Monte Carlo ile birlikte gelen yaklaşıklık hatasını artıracağınızdır), üzücü gerçek şu ki bu Bayesian MCMC analizlerinin sadece talihsiz bir yönüdür: hesaplamalı olarak pahalı. @conjectures yorumu harika bir fikir, ancak sorunun merkezinde yer almıyor: her bir kişi için bu örneklerin hepsini çizmek çok pahalı. Benim tavsiyem, ağır iş için kendi C kodunuzu yazmanız (Rcpp in R, Cython in Python, vb.) Ve ayrıca paralelleştirmeniz (şube bağımlılığı olmadığında).

1
@conjectures Bu, Michael Jordan'ın küçük önyükleme çantasına benziyor.
jaradniemi

1
Gizli değişken büyütmeyi tamamen önlemek için örnekleyicinizi değiştirmenizi öneririm. Artık Gibbs örnekleyicisine sahip olmayacaksınız, ancak olasılığa normal bir yaklaşıma dayanan bir teklif içeren bir Metropolis-Hastings algoritması iyi çalışmalıdır. Bayesian Veri Analizinin 2. baskısının Bölüm 16.4'üne bakınız.
jaradniemi

6
Bu, sizin için doğru bir şekilde özetleyecek kadar iyi bilmediğim aktif bir araştırma alanı. Örneğin bkz. Jmlr.org/proceedings/papers/v32/bardenet14.pdf ve arxiv.org/pdf/1304.5299v4.pdf
Andrew M

Yanıtlar:


1

Alt örnekleme stratejileri hakkında: örneğin iki gözlemin olduğunu düşünün X1~N-(μ1,σ12) ve X2~N-(μ2,σ22)ve ortalama ve varyans üzerine bazı öncelikler koymayı düşünün. İzin Vermekθ=(μ1,μ2,σ12,σ22), değerlendirmek istediğimiz posterior

f(θ|X1,X2)αf(X1|θ)f(X2|θ)f(θ)
Artık binom değişkenini düşünün δ~B(0.5). Eğerδ=0 Seçtik X1, Eğer δ=1 Seçtik X2, yeni posterior
f(θ,δ|X1,X2)αf(X1,X2|δ,θ)f(θ)f(δ)
nerede f(X1,X2|δ,θ)=f(X1|θ)δf(X2|θ)1-δ ve f(δ)=0.5. Şimdi örneklemek istiyorsanızδ Gibbs adımı ile hesaplamanız gerekir f(X1|θ) ve f(X2|θ) Çünkü P(δ=1)=f(X1|θ)f(X1|θ)+f(X2|θ). Metropolis Hastings'i başka türlü kullanırsanız, yeni bir eyalet önerirsiniz.δ* ve sadece bir tanesini f(X1|θ) ve f(X2|θ), önerilen eyaletlerle ilişkili olan, ancak aşağıdakileri hesaplamak zorundasınız f(X1|θ) ve f(X2|θ) kabul edilen son durum için bile δ. O zaman metropolün size bir avantaj sağlayacağından emin değilim. Dahası, burada iki değişkenli bir süreç düşünüyoruz, ancak çok değişkenli bir süreçle,δs metropol ile çok karmaşık olabilir.
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.