Bayesian yöntemlerinin fazla giyinmediği doğru mu?


25

Bayesian yöntemlerinin fazla giyinmediği doğru mu? (Bu iddiayı yapan bazı makaleleri ve dersleri gördüm)

Örneğin, MNIST'e bir Gauss Süreci uygularsak (el yazısı basamaklı sınıflandırma), ancak yalnızca tek bir örnek gösterirsek, bu tek örneklemden farklı, ancak küçük olan fark için herhangi bir girdi için önceki dağıtıma geri dönecek mi?


sadece düşünüyordum - "fazla uydurma" tanımlayabileceğiniz matematiksel olarak kesin bir yol var mı? Yapabiliyorsanız, olasılıklardan kaçınmak için bir olasılık fonksiyonuna veya öncülüğüne özellikler de oluşturabilirsiniz. Benim düşüncem bu kavram "aykırı" gibi geliyor.
Olasılık

Yanıtlar:


25

Hayır doğru değil. Bayesian yöntemleri kesinlikle verilere uygun olacaktır. Bayesian yöntemlerini fazla giydirmeye karşı daha güçlü kılan birkaç şey var ve onları daha kırılgan hale getirebilirsiniz.

Bayesian hipotezlerinin birleştirici niteliği, ikili hipotezler yerine, birisi sıfır hipotez yöntemleri için "gerçek" modelden yoksun olduğunda çoklu karşılaştırmalar yapılmasını sağlar. Bir Bayesian posterior, uygun şekilde iyileştirmeleri ödüllendirirken değişken ekleme gibi model yapısındaki artışı etkili bir şekilde cezalandırır. Cezalar ve kazançlar, Bayesian dışı yöntemlerde olduğu gibi optimizasyonlar değil, olasılıklardan yeni bilgilerden kayıyor.

Bu, genellikle daha sağlam bir metodoloji verirken, önemli bir kısıtlama vardır ve bu, daha önce uygun dağıtımlar kullanmaktır. Frequentist yöntemleri düz öncelikleri kullanarak taklit etmek isteme eğilimi olsa da, bu uygun bir çözümü garanti etmez. Bayesian yöntemlerinde fazla uydurma ile ilgili makaleler var ve bana günahın kesinlikle düz önceliklerle başlayarak Bayesian dışı yöntemlere "adil" olmaya çalışıyor gibi görünüyor. Zorluk, önceliğin olasılığın normalleştirilmesinde önemli olduğudur.

Bayesyen modeller, Wald'un kelimenin kabul edilebilirlik duygusundaki esasen en uygun modellerdir, ancak içinde gizli bir öcü vardır. Wald, öncekilerin sizin gerçek önceliğiniz olduğunu ve bazılarını kullanmadan önce kullanmayacağınızı varsayıyor, böylece editörler bu konuda çok fazla bilgi verdiğiniz için sizi kandırmayacaklar. Frequentist modellerle aynı anlamda optimal değiller. Sık kullanılan yöntemler, tarafsız kalırken, varyansı en aza indirmenin optimizasyonu ile başlar.

Bu, bilgiyi yok etmesi ve sık sık kabul edilebilir olmasına rağmen, Wald anlamında kendinden kabul edilemez olması nedeniyle maliyetli bir optimizasyondur. Bu yüzden Frequentist modeller, tarafsızlık göz önüne alındığında verilere en uygun seçimi sağlar. Bayesian modelleri ne tarafsız ne de verilere en uygunudur. Aşırı yüklemeyi en aza indirmek için yaptığınız ticaret budur.

Bayesian modelleri, onları tarafsız kılmak için özel adımlar atılmadığı sürece, genellikle verilere daha uygun olan, aslında önyargılı modellerdir. Onların erdemleri, “gerçek modeli” bulmak için hiçbir zaman alternatif bir yöntemden daha az bilgi kullanmamalarıdır ve bu ek bilgi, özellikle örneklem çalışırken Bayesian modelleri asla alternatif modellerden daha az riskli yapmaz. Bununla birlikte, Bayesian yöntemini sistematik olarak "aldatmak" için rastgele çizilmiş bir örnek bulunacaktır.

Sorunuzun ikinci kısmına gelince, eğer tek bir numuneyi analiz edecek olursanız, posterior tüm kısımlarında sonsuza dek değişecek ve tüm bilgilerdeki bilgileri tamamen iptal eden ikinci bir numune olmadıkça öncekine geri dönmeyecekti. ilk örnek En azından teorik olarak bu doğru. Uygulamada, önceki bilgi yeterince bilgilendirici ise ve gözlem yeterince bilgisizse, o zaman etki o kadar küçük olabilir ki, bir bilgisayar önemli basamak sayısındaki sınırlama nedeniyle farklılıkları ölçemez. Bir bilgisayarın arkadaki bir değişikliği işlemesi için bir efektin çok küçük olması mümkündür.

Yani cevap "evet" dir, örneğin küçük bir örneklem büyüklüğüne ve uygunsuz önceliklere sahipseniz, bir Bayesian yöntemini kullanarak bir örneğe üstesinden gelebilirsiniz. İkinci cevap “hayır” Bayes teoremi, önceki verilerin etkisini asla unutmaz, ancak etki o kadar küçük olabilse de, onu hesaplamada kaçırırsınız.


2
Gelen Onlar tarafsız kalırken farklılıklarının minimize optimizasyonu ile başlar. , Onlar nedir?
Richard Hardy

Yalnızca çok az sayıda model (temel olarak sıfır ölçülü bir set) tarafsız tahmin edicilerin oluşumuna izin verir. Örneğin, normal bir modelinde, yansız bir tahmincisi yoktur . Gerçekten, çoğu zaman bir olasılığı en üst düzeye çıkarırız, önyargılı bir tahmincimiz olur. σN(θ,σ2)σ
Andrew M,

1
@AndrewM: Orada olan tarafsız bir tahmincisi - Normal modelde stats.stackexchange.com/a/251128/17230 . σ
Scortchi - Monica'yı yeniden kurun

11

Dikkat edilmesi gereken bir şey, hemen hemen her yerde olduğu gibi, Bayesian yöntemlerinde önemli bir sorunun modelin yanlış belirlenmesi olabilir.

Bu bariz bir nokta ama yine de bir hikayeyi paylaşacağımı düşündüm.

Arka tarafta bir skeç ...

Klasik bir Bayesian parçacık filtreleme uygulaması, bir oda içerisinde hareket ederken robotun konumunu izlemektir. Sensör okumaları belirsizliği azaltırken, hareket belirsizliği arttırır.

Bunu yapmak için bazı rutinleri kodladığımı hatırlıyorum. Gerçek değerler verilen çeşitli sonar okumalarını gözlemleme olasılığı için mantıklı, teorik olarak motive bir model yazdım. Her şey tam olarak türetildi ve güzelce kodlandı. Sonra test etmeye gidiyorum ...

Ne oldu? Toplam başarısızlık! Niye ya? Parçacık filtrem hızla algılayıcı okumalarının neredeyse tüm belirsizlikleri ortadan kaldırdığını düşündü. Nokta bulutum bir noktaya çöktü, ancak robotum mutlaka o noktada değildi!

Temel olarak, olasılık fonksiyonum kötüydü; Sensör okumalarım düşündüğüm kadar bilgilendirici değildi. Çok abartıyordum. Bir çözüm? Bir ton daha Gauss gürültüsüyle (geçici bir şekilde) karıştırdım, nokta bulutu çökmeye son verdi ve sonra filtreleme oldukça güzel bir şekilde çalıştı.

Ahlaki?

Box’un ünlü bir şekilde söylediği gibi “tüm modeller yanlış, ancak bazıları yararlı.” Neredeyse kesinlikle, gerçek olabilirlik işlevine sahip olmayacaksınız ve yeterince kapalıysa, Bayesian yönteminiz korkunç derecede çılgına dönebilir ve fazladan takılabilir.

Bir öncek eklemek, gözlemlerin olmadıklarında IID olduğunu varsaymaktan kaynaklanan sorunları sihirli bir şekilde çözmez, olasılığın olduğundan daha fazla eğriliği olduğunu varsayarsak ...


3
"Alttan arkadan bir skeç ... Klasik bir Bayes parçacık filtreleme uygulaması, bir odanın içinde hareket ederken bir robotun konumunu izlemektir" ... sizin yeriniz nerede? :)
Cliff AB,
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.