Bir MCMC tekniğinin örnekleme sürecini “iyileştirmek” için Makine Öğrenimi ya da Derin Öğrenme algoritmaları kullanılabilir mi?


21

MCMC (Markov zinciri Monte Carlo) yöntemleri üzerine sahip olduğum az bilgiye dayanarak, örneklemenin yukarıda belirtilen tekniğin çok önemli bir parçası olduğunu anlıyorum. En sık kullanılan örnekleme yöntemleri Hamiltonian ve Metropolis'tir.

Daha verimli bir MCMC örnekleyici oluşturmak için makine öğrenimini veya hatta derin öğrenmeyi kullanmanın bir yolu var mı?


5
Ne tür bir "iyileştirme" aklınızda bulunduğunu ve makine öğreniminin rolünü nasıl görüyorsunuz?
Tim

2
Genelde değil, MCMC genellikle analitik çözümler bulmak için çok karmaşık olmayan kapalı formlu olmayan ifadelerden gelen değerleri tahmin etmeyi içerir. Çok değişkenli kümelemenin (veya benzer yaklaşımların) daha basit çok değişkenli yoğunlukları tahmin etmek için kullanılması mümkündür, ancak bunu daha fazla MCMC kullanmaya alternatif olarak görüyorum.
AdamO

1
@AdamO, neden bunu bir cevaba çevirmiyorsunuz? Buraya gelebildiğimiz kadar iyi olabilir gibi görünüyor.
gung - Reinstate Monica

@Tim Eh, okuduklarımdan itibaren, MCMC çıkarımsal miktarları hesaplamak için bir dağıtımdan örnekler alır. MH algoritması rasgele "konumları" seçer ve daha sonra kabul edilebilir olduklarını iddia eder. Merak ettiğim şey, alternatif yöntemler olup olmadığı. Kulağa belirsiz geldiğini biliyorum ve bunun için özür dilerim, ancak MCMC'yi merak uyandırıcı buluyorum ve teorik ve pratik uygulamaları kendi kendine çalışarak ele almaya çalışıyorum.
Jespar

Yanıtlar:


27

Evet. Diğer yanıtların aksine, parametrik olmayan ve (derin) sinir ağları gibi 'tipik' makine öğrenme yöntemleri daha iyi MCMC örnekleyicileri oluşturmaya yardımcı olabilir .

MCMC'nin amacı (normalize edilmemiş) bir hedef dağılımdan örneklerini almaktır . Elde edilen numuneler yaklaşık olarak belirlemek için kullanılır ve çoğunlukla (yani, yüksek boyutlu integraller) altındaki fonksiyonların ve özellikle (momentler gibi) özelliklerinin beklentilerini hesaplamaya izin verir .f f ff(x)fff

Örnekleme , Hamiltonian Monte Carlo (HMC) gibi yöntemler için genellikle ve muhtemelen gradyanı için çok sayıda değerlendirme gerektirir . Eğer değerlendirmek için pahalı ya da gradyan kullanılamaz, daha az pahalı oluşturmak için bazen mümkündür taşıyıcı işlevi örnekleme de yardımcı olabilir ve yerine değerlendirilir (hala MCMC özelliklerini muhafaza ettiği şekilde).f ffff

Örneğin, bir ufuklar kağıt ( Rasmussen 2003 ) kullanımını önermektedir Gauss işlemler için bir yaklaşım oluşturmak için (parametrik olmayan bir fonksiyon yaklaşımı) ve temel HMC yalnızca kabul / ret aşaması ile, taşıyıcı işlevi HMC gerçekleştirmek . Bu, orijinal değerlendirme sayısını azaltır ve pdfs üzerinde MCMC gerçekleştirilmesine izin verir, aksi takdirde değerlendirmek çok pahalı olurdu.f fgünlükfff

MCMC'yi hızlandırmak için vekiller kullanma fikri son birkaç yıl içinde, özellikle vekil işlevini oluşturmak için farklı yollar denemek ve onu etkin / uyarlamalı olarak farklı MCMC yöntemleriyle (ve 'doğruluğunu koruyacak şekilde) birleştirmek suretiyle araştırıldı. MCMC örneklemesinden '). Sorunuzla ilgili olarak, bu son iki makale , vekil işlevini oluşturmak için gelişmiş makine öğrenme tekniklerini (rastgele ağlar ( Zhang ve ark. 2015 ) veya uyarlanabilir öğrenilmiş üstel çekirdek işlevleri) ( Strathmann ve ark. 2015 ) kullanır.

HMC, vekillerden faydalanabilecek tek MCMC şekli değildir. Örneğin, Nishiara ve diğ. (2014) , çok değişkenli bir öğrencinin dağılımını bir topluluk örnekleyicinin çok zincirli durumuna yerleştirerek hedef yoğunluğun bir yaklaşımını oluşturmakta ve bunu genelleştirilmiş bir eliptik dilim örnekleme biçimi yapmak için kullanmaktadır .t

Bunlar sadece örnek. Genel olarak, (çoğunlukla fonksiyonu uyumu ve yoğunluk tahmini alanında) farklı ML bir dizi teknik bilgi elde etmek için kullanılabilir olabilir MCMC numune etkinliğini geliştirir. Bunların gerçek yararı - örneğin, "ikinci başına etkin bağımsız örnekler" sayısı olarak ölçülen - şartına bağlıdır pahalı ya da hesaplamak için biraz zor olan; ayrıca, bu yöntemlerin birçoğu uygulanabilirliğini kısıtlayan kendi veya ek bilgilerinin ayarlanmasını gerektirebilir.f

Referanslar:

  1. Rasmussen, Carl Edward. "Gaussian, pahalı Bayesian integralleri için hibrit Monte Carlo'yu hızlandırmaya çalışıyor." Bayes İstatistikleri 7. 2003.

  2. Zhang, Cheng, Babak Shahbaba ve Hongkai Zhao. "Rastgele Bazlı Vekil İşlevleri Kullanarak Hamiltonian Monte Carlo Hızlandırması." arXiv ön baskı arXiv: 1506.05555 (2015).

  3. Strathmann, Heiko ve diğ. "Degrade içermeyen Hamiltonian Monte Carlo, verimli çekirdek üstel ailelere sahip." Yapay Sinir İşleme Sistemlerinde Gelişmeler. 2015.

  4. Nishihara, Robert, Iain Murray ve Ryan P. Adams. "Genelleştirilmiş eliptik dilim örneklemeli paralel MCMC." Makine Öğrenimi Araştırmaları Dergisi 15.1 (2014): 2087-2112.


2
Listelenen yöntemlerin gerçekten "makine öğrenme yöntemleri" kategorisinde olduğundan emin değilim, yalnızca standart MCMC yöntemleri (bu satırların en bulanık olmasına rağmen). Kesin olarak bir ML / DL yöntemi gibi görünen tek şey 3'tü , 3'ten beri "sinir ağı" başlığından çıkarıldı (ve metinde standart ML yöntemlerinin kullanılmasının çok yavaş olacağını kabul ediyor gibi görünüyor).
Cliff AB

2
@CliffAB teşekkürler. Ben çizgi bu yöntemlerden bazıları için biraz bulanık olduğu konusunda hemfikir (örneğin 4 kullanımları basit Student - ama onların yöntemi oturması olabilir biraz daha karmaşık yoğunluk tahmini tekniğini kullanın). Geri kalanı ise, GP'ler veya yoğunluk tahmini, bir ML tekniği gibi (parametrik olmayan) fonksiyon yaklaşımını dikkate almanıza bağlıdır. Eğer değil, adil yapmak yeterli, ama emin değil ne isem olan bir ML tekniğim. (OP, t
MCMC’yi

1
@Lacerbi'ye çok teşekkür ederim. Referanslarınızı daha fazla araştırma için ana kaya olarak kullanabildiğim için memnunum.
Jespar

6

Bir yöntem olabilir iki konseptleri bir çok değişkenli Metropolis Hastings algoritması taşımaktadır. Bu durumda, bir hedef dağılımına (arka dağılım) ve bir teklif dağılımına (tipik olarak çok değişkenli normal veya t dağılımına) sahibiz.

İyi bilinen bir gerçek, teklif dağıtımı posterior dağıtımdan ne kadar fazlaysa, örnekleyici o kadar az verimlidir. Bu nedenle, basit bir çok değişkenli normal / t dağılımından ziyade gerçek posterior dağılımla daha iyi eşleşen bir teklif dağılımı oluşturmak için bir çeşit makine öğrenmesi yöntemi kullanıldığını hayal edebilirsiniz.

Ancak, bunun verimliliğe herhangi bir gelişme olacağı açık değildir. Derin öğrenme önererek, bir tür sinir ağı yaklaşımını kullanmakla ilgilenebileceğinizi farz ediyorum. Çoğu durumda, bu , tüm vanilya MCMC yönteminin kendisinden önemli ölçüde daha hesaplamalı olarak pahalı olacaktır . Benzer şekilde, NN yöntemlerinin (hatta çoğu makine öğrenme yönteminin) , MCMC için çok önemli olan, gözlemlenen alanın dışında yeterli yoğunluk sağlamak için iyi bir iş yapması için hiçbir neden bilmiyorum . Bu yüzden, makine öğrenme modelini oluşturmakla ilişkili hesaplama maliyetlerini göz ardı ederek bile, bunun örnekleme verimliliğini arttırmasının iyi bir nedenini göremiyorum.


Cliff AB Siz ve @AdamO'nun MCMC ve ML kavramlarını bana başka bir kitapta saatlerce harcayarak daha fazla açıklığa kavuşturduğunu hissediyorum. Çabalarınız için minnettarım ve daha fazla içine girebileceğim bazı alanlardan bahsettiğinize sevindim.
Jespar

@Sionion hangi kitabı kastediyorsunuz?
AdamO

@AdamO Şu anda Richard Sutton ve Machine Learning'den Güçlendirme Öğrenimi okuyorum: Kevin Murphy'nin MCMC bölümünü içeren Olasılıklı Bir Bakış Açısı; ve ayrıca çeşitli ML ve Hesaplamalı İstatistik dergilerinden yayınlar.
Jespar

3

Makine Öğrenmesi, denetlenen veya denetlenmeyen bir ortamda tahmin, sınıflandırma veya kümeleme ile ilgilidir. Öte yandan, MCMC olasılıksal sayısal yöntemler kullanarak karmaşık bir intergral (genellikle kapalı form olmadan) değerlendirmekle ilgilenmektedir. Metropolis örnekleme kesinlikle değil en sık kullanılan yaklaşımdır. Aslında, bu olasılıksal bir bileşene sahip olmayan tek MCMC yöntemidir . Bu nedenle, ML bu durumda MCMC ile hiçbir şey bilgilendirmez.

Öneme dayalı örnekleme , olasılıksal bir bileşen gerektirir. Bazı temel varsayımlar altında Metropolis'ten daha verimlidir. Bazı varsayımlara uyması durumunda, bu olasılıksal bileşeni tahmin etmek için ML yöntemleri kullanılabilir. Örnekler, karmaşık bir yüksek boyutlu Gauss yoğunluğunu tahmin etmek için çok değişkenli kümeleme olabilir. Bu soruna parametrik olmayan yaklaşımlara aşina değilim, ama bu ilginç bir gelişme alanı olabilir.

Bununla birlikte, ML daha sonra sayısal bir yöntemle kullanılan yüksek boyutlu bir karmaşık olasılık modelini tahmin etme sürecinde belirgin bir adım olarak öne çıkıyor. Bu durumda, ML'nin MCMC'yi nasıl geliştirdiğini anlamıyorum.


Teşekkürler @AdamO, en azından şimdi bu bölgeyi daha iyi anlıyorum.
Jespar

1
Bence bu cevap eksik ve muhtemelen yanlış (OP'nin asıl sorununun yorumuna bağlı olarak tamamen açık değil). Bu tür Nonparametrics ve yapay sinir ağları gibi tipik ML yöntemleri olabilir ve edilmektedir MCMC numune geliştirmek için kullanılır. Aslında, aktif bir araştırma alanıdır. Cevabımı ve başlangıç ​​için referansları görün.
lacerbi

1
p

@AdamO'ya teşekkürler. Yine de, dürüst olmak gerekirse, açıklamanızı ya da cevabınızı nasıl doğru hale getirdiğini anlamıyorum. Örneğin, Metropolis'in “olasılıksız bir bileşeni” olduğunu söylerken ne demek istediğinizi anlamıyorum. Ayrıca, cevabımın gösterdiği gibi, ML’nin örneklemede yardımcı olamayacağını, bunun basitçe (yüksek örneklemli bir entegralin tahmini olarak örneklemenin dar tanımında bile) yardımcı olduğunu söyleyeceksiniz.
lacerbi

3
@AdamO: Gauss süreçleri, çekirdek yöntemleri, rastgele temel ağlar. Genel olarak, herhangi bir fonksiyon yaklaşımı ya da yoğunluk kestirimi işe yarayabilir. Bu ML yöntemleri değilseniz, ne emin değilim olduğunu ... (OP ML istedi o lütfen not veya DL yöntemlerle). Ayrıca, yukarıda sorduğum gibi, Metropolis'in olasılıksal bir bileşeni olmadığını yazarken ne demek istediğinizi açıklayabilir misiniz? Teşekkürler!
lacerbi

0

Yazarlar kullanılan hesaplamalı fizik bazı yeni eserler vardı Kısıtlı Boltzmann Makineleri modeli olasılık dağılımına ve daha sonra teklif (umarım) verimli Monte Carlo günceller 1610.02746: arXiv . Buradaki fikir, yukarıda @ lacerbi tarafından verilen referanslara oldukça benziyor.

Başka bir denemede, 1702.08586'da yazar, ünlü Monte Küme güncellemelerini gerçekleştirebilecek (hatta keşfedebilecek) Boltzmann Makineleri'ni açıkça inşa etmiştir .

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.