Bayeslilerin test setlerine ihtiyaç duymadığı doğru mu?

Kısa bir süre önce Eric J. Ma tarafından bu konuşmayı izledim ve Radford Neal'dan alıntı yaptığı blog girişini kontrol ettim, Bayesian modellerin abartılamadığını (ancak overfit edebileceklerini ) ve bunları kullanırken, onları doğrulamak için test setlerine ihtiyacımız yok ( Bana tırnak işaretleri yerine parametreleri ayarlamak için doğrulama kümesi kullanarak konuşmak gibi görünüyor). Dürüst olmak gerekirse, argümanlar beni ikna etmiyor ve kitaba erişimim yok, bu yüzden böyle bir ifade için veya bu ifadeye karşı daha ayrıntılı ve titiz bir argüman verebilir misiniz?

Bu arada, Eric Ma bana bu tartışmayı aynı konuya yöneltti.

— Tim
kaynak

Bu tartışmadaki bu tartışmadaki önemli bir delik: MCMC yapıyorsanız, posterioru tam olarak keşfetmiyorsanız, çıkarımınız tamamen geçersizdir. Bir Bayesian Sinir Ağında çıkarım yapıyorsanız, MCMC kullanarak posteriorun çok büyük bölümlerini neredeyse kesinlikle keşfetmediniz. Bu nedenle, çıkarımınızı iki kez kontrol etmek için verilerinizi bölmeniz daha iyi olur!

— Cliff AB

göz önünde bulundurulması gereken bir nokta, neyi değerlendiriyor veya doğrulıyoruz? sahip olduğumuz tüm bilgileri (önceden ya da büyük olasılıkla) kullanmıyor olabiliriz. model uyumunun kontrol edilmesi bu sorunun yanıtlanmasında yardımcı olabilir.

— olasılık

Uygun şekilde yakalanmış önceki bilgileri yansıtan "tek bir gerçek model" ve "gerçek öncelikler" kullanırsak, Bayesian'ın gerçekten fazla uyuşma sorunu olmadığını ve çok az veri verilen arka tahmin dağılımının uygun şekilde belirsiz olacağını bildiğim kadarıyla . Bununla birlikte, bir tür pragmatik olarak seçilmiş bir model kullanırsak (örneğin, tehlike hızının zaman içinde sabit olduğuna ve üstel bir modelin uygun olduğuna veya örneğin bazı eş değişkenlerin modelde olmadığına karar verdik) varsayılan bilgilendirme veya düzenli hale getirme öncelikleri varsa, bunun hala geçerli olup olmadığını gerçekten bilmiyoruz. Bu durumda, (hiper-) önceliklerin seçiminde, örnek tahminlerin iyi sonuçlanmasına neden olabilecek veya olmayabilecek bazı keyfi özellikler vardır.

Bu nedenle, hiperparametre seçiminin (= hiperpriorların parametreleri) seçilen olasılıkla kombinasyon halinde iyi performans gösterip göstermediğini sormak çok makuldür. Aslında, istenen parametreleri tahmin etmek için hiperparametrelerinizi ayarlamanın iyi bir fikir olduğuna kolayca karar verebilirsiniz. Bu açıdan, hiperparametreleri ayarlamak için bir doğrulama seti (veya çapraz doğrulama) ve performansı doğrulamak için test seti mükemmel bir anlam ifade eder.

Bunun blogunda Andrew Gelman'ın bir dizi tartışmasıyla yakından ilgili olduğunu düşünüyorum (bkz. Blog girişi 1 , blog girişi 2 , Stan için LOO hakkında blog girişi 3 ve posterior tahmin kontrolleri hakkındaki tartışmalar). (bir anlamda doğru) bir Bayesci'nin modelinin anlamlı olup olmadığını ve pratik Bayesci model değerlendirmesi hakkında kontrol etmemesi gerektiğini iddia eder.

Tabii ki, çok az ön bilginin bulunduğu ve biraz bilgilendirici öncelikler kullanmak istediğimiz ortamlarda Bayesian yöntemlerini kullanmakla en çok ilgileniyoruz. Bu noktada, bir test setinde doğrulama ve değerlendirme ile her yere ulaşmak için yeterli veriye sahip olmak biraz zor olabilir.

— Björn
kaynak

Bu yüzden referans verdiğiniz aşırı uydurma sorusunu yanıtladım ve videoyu izledim ve blog gönderisini okudum. Radford Neal, Bayes modellerinin fazla uymadığını söylemiyor. Aşırı sığmanın, sinyal olarak muamele gören ve parametre tahmininin içine karışan gürültü olgusu olduğunu hatırlayalım. Model seçim hatasının tek kaynağı bu değildir. Neal'ın tartışması daha geniş olmakla birlikte, aşırı sığdırma tartışmasına girdiği küçük bir örneklem büyüklüğü fikrine girerek.

Bayesian modellerinin tüm Bayesian modellerine göre daha fazla uyum sağlayabileceğine dair önceki yayınımı kısmen gözden geçireyim, ancak bunu tahminleri iyileştirecek şekilde yapın. Yine, sinyalin gürültü ile karıştırılmasına, Bayes yöntemlerindeki belirsizliğe, posterior dağılıma geri dönersek, bu belirsizliğin, sinyalin ve gürültünün ne olduğu konusundaki niceliğinin ölçümüdür. Bunu yaparken, Bayesci yöntemler bütün poster çıkarsama ve tahminlerde kullanıldığı için gürültüyü sinyal tahminlerine dahil etmektedir. Aşırı uyum ve diğer model sınıflandırma hatası kaynakları Bayesci yöntemlerde farklı bir sorun türüdür.

Basitleştirmek için Ma'nın konuşmasının yapısını benimseyelim ve lineer regresyona odaklanalım ve derin öğrenme tartışmasından kaçınalım, çünkü bahsettiği gibi, alternatif yöntemlerden sadece fonksiyon kompozisyonları var ve lineer mantık arasında doğrudan bir bağlantı var regresyon ve derin öğrenme.

Aşağıdaki potansiyel modeli düşünün

y = β_{0} + β_{1} x_{1} + β_{2} x_{2} + β_{3} x_{3} .

$y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3.$ Geniş boyutta bir örnek oluşturalım

N

$N$ iki alt numuneden oluşur,

n_{1}, n_{2}

$n_1,n_2$ , nerede

n_{1}

$n_1$ eğitim seti ve

n_{2}

$n_2$ doğrulama kümesidir. Birkaç uyarıya rağmen Bayes yöntemlerinin neden ayrı bir eğitim ve doğrulama setine ihtiyaç duymadığını göreceğiz.

Bu tartışma için, her model için bir tane olmak üzere sekiz parametre daha oluşturmamız gerekiyor. Onlar $m_1\dots{_8}$ . Multinom dağılımını takip ederler ve regresyon katsayıları gibi uygun önceliklere sahiptirler. Sekiz model

y = β_{0} + β_{1} x_{1} + β_{2} x_{2} + β_{3} x_{3},

$y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3,$

y = β_{0},

$y=\beta_0,$

y = β_{0} + β_{1} x_{1},

$y=\beta_0+\beta_1x_1,$

y = β_{0} + β_{2} x_{2},

$y=\beta_0+\beta_2x_2,$

y = β_{0} + β_{3} x_{3},

$y=\beta_0+\beta_3x_3,$

y = β_{0} + β_{1} x_{1} + β_{2} x_{2},

$y=\beta_0+\beta_1x_1+\beta_2x_2,$

y = β_{0} + β_{1} x_{1} + β_{3} x_{3},

$y=\beta_0+\beta_1x_1+\beta_3x_3,$

y = β_{0} + β_{2} x_{2} + β_{3} x_{3},

$y=\beta_0+\beta_2x_2+\beta_3x_3,$

y = β_{0} + β_{1} x_{1},

$y=\beta_0+\beta_1x_1,$

y = β_{0} + β_{2} x_{2},

$y=\beta_0+\beta_2x_2,$ ve

y = β_{0} + β_{3} x_{3} .

$y=\beta_0+\beta_3x_3.$

Şimdi Bayesci ve Frequentist yöntemler arasındaki farkların yabani otlarına girmeliyiz. Eğitim setinde, $n_1,$ Frequentist yöntemlerini kullanan modelci sadece bir model seçer. Bayesian yöntemlerini kullanan modelci çok kısıtlı değildir. Bayesci modelci sadece bir model bulmak için bir model seçim kriteri kullanabilse de, model ortalamasını kullanmakta da serbesttirler. Bayesci modelci, doğrulama segmentinin ortasındaki seçilen modelleri de değiştirmekte serbesttir. Moreso, modelleyici Bayesian yöntemlerini kullanarak seçim ve ortalama arasında karışabilir ve eşleşebilir.

Gerçek dünyadan bir örnek vermek gerekirse, 78 iflas modelini test ettim. 78 modelden 76'sının birleşik posterior olasılığı yüzde birinin binde biri kadardı. Diğer iki model sırasıyla yüzde 54 ve yüzde 46 idi. Neyse ki, herhangi bir değişken paylaşmadılar. Bu, her iki modeli de seçmeme ve diğer 76'yı görmezden gelmeme izin verdi. Her ikisi için de tüm veri noktalarına sahip olduğumda, tahminlerini, iki modelin posterior olasılıklarına göre ortaladım, eksik veri noktalarını engellediğimde sadece bir model kullandım. diğer. Bir eğitim setim ve validasyon setim olsa da, bir Frequentist'in sahip olduğu aynı sebepten değildi. Ayrıca, her günün sonunda iki iş döngüsü boyunca posterlerimi her günün verileriyle güncelledim. Bu, doğrulama setinin sonundaki modelimin eğitim setinin sonundaki model olmadığı anlamına geliyordu. Bayes modelleri öğrenmeyi durdurmazken Frequentist modeller de durur.

Daha derine inmek, modellerimizle somutlaşalım. Eğitim örneği sırasında, model seçimini eşleştiren en uygun Frequentist model ve Bayesian modelin ya da alternatif olarak model ortalamasındaki model ağırlığının o kadar büyük olduğunu varsayalım ki Frequentist model için neredeyse ayırt edilemez. Bu modelin

y = β_{0} + β_{1} x_{1} + β_{2} x_{2} + β_{3} x_{3} .

$y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3.$ Doğada gerçek modelin

y = β_{0} + β_{1} x_{1} + β_{3} x_{3} .

$y=\beta_0+\beta_1x_1+\beta_3x_3.$

Şimdi doğrulama setindeki farkı ele alalım. Frequentist model verilere gereğinden fazla takılmıştır. Diyelim ki bir noktaya kadar $n_2^i$ model seçimi veya doğrulama prosedürünün seçimi doğadaki gerçek modele değiştirmiş olması. Ayrıca, model ortalamalaması kullanılmışsa, doğadaki gerçek model, modellerin seçiminden çok önce tahminte ağırlık taşıyordu. ET Jaynes olasılık teorisi konusundaki kararında bu konuyu tartışmak için biraz zaman harcıyor. İş yerinde kitabım var, bu yüzden size iyi bir alıntı yapamıyorum, ama okumalısınız. ISBN'si 978-0521592710'dur.

Modeller Bayes düşüncesindeki parametrelerdir ve bu nedenle rastgele veya tercih ederseniz belirsizdir. Bu belirsizlik validasyon sürecinde sona ermez. Sürekli güncellenir.

Bayesian ve Frequentist yöntemler arasındaki farklılıklar nedeniyle, dikkate alınması gereken başka vakalar da vardır. Birincisi parametre çıkarımından, ikincisi ise resmi tahminlerden gelir. Bayesci yöntemlerde aynı şey değildirler. Bayes yöntemleri çıkarım ve karar alma süreçlerini resmi olarak ayırır. Ayrıca parametre tahminini ve tahmini ayırırlar.

Genelliğin kaybı olmadan bir modelin başarılı olacağını düşünelim. $\hat{\sigma^2}<k$ ve bir başarısızlık. Diğer parametreleri göz ardı edeceğiz, çünkü basit bir fikre ulaşmak çok fazla iş olacak. Bayesian yöntemlerini kullanan modelci için bu, Frequentist yöntemleri kullanan sorudan çok farklı bir soru tipidir.

Frequentist için eğitim setinden yola çıkılarak bir hipotez testi yapılır. Frequentist yöntemleri kullanan modelleyici, tahmini varyansın eşit veya daha büyük olup olmadığını test eder. $k$ ve boyutu olan örnek üzerindeki null değerini reddetmeye çalışın $n_2$ parametreleri keşfedilenlere sabitleyerek $n_1$ .

Bayesian yöntemlerini kullanan modelleyici için, örneklem sırasında parametre tahminleri oluştururlar $n_1$ ve arka yoğunluğu $n_1$ örnek için öncelikli olur $n_2$ . Değiştirilebilirlik özelliğinin geçerli olduğu varsayılarak, $n_2$ ortak örnekten oluşan bir olasılık tahmininin tüm duyularına eşittir. Bunları iki örneğe bölmek, matematiğin onları hiç ayırmamaya eşdeğerdir.

Tahminler için de benzer bir sorun söz konusudur. Bayesci yöntemlerin her gözlemle de güncellenen bir tahmine dayalı dağılımı vardır, oysa Frequentist olanı numunenin sonunda dondurulur $n_1$ . Tahmin yoğunluğu şu şekilde yazılabilir: $\Pr(\tilde{x}=k|\mathbf{X})$ . Eğer $\tilde{x}$ tahmin ve $\mathbf{X}$ örnek, o zaman belirteceğimiz parametreler nerede $\theta?$ Frequentist tahmin sistemleri mevcut olmasına rağmen, çoğu insan nokta tahminlerini gerçek parametreler olarak görür ve kalıntıları hesaplar. Bayesian yöntemleri her bir tahmini tek bir noktadan ziyade tahmin edilen yoğunluğa göre puanlar. Bu tahminler, Frequentist çözümlerde kullanılan nokta yöntemlerinden farklı parametrelere bağlı değildir.

Bir yan not olarak, standart hatalar kullanılarak resmi Frequentist tahmin yoğunlukları vardır ve bunlar üzerinde puanlama yapılabilir, ancak bu pratikte nadirdir. Belirli bir ön bilgi yoksa, iki tahmin kümesi aynı veri noktaları kümesi için aynı olmalıdır. Farklılaşacaklar çünkü $n_1+n_2>n_1$ ve böylece Bayes çözümü daha fazla bilgi getirecektir.

Önceden önemli bir bilgi yoksa ve nokta tahminleri yerine Frequentist tahmin yoğunlukları kullanılıyorsa, sabit bir örnek için tek bir model seçilirse Bayes ve Frequentist yöntemlerin sonuçları aynı olacaktır. Önceden bilgi varsa, Bayesian yöntemi daha doğru tahminler üretme eğiliminde olacaktır. Bu fark pratikte çok büyük olabilir. Ayrıca, model ortalaması varsa, Bayesian yönteminin daha sağlam olması muhtemeldir. Model seçimini kullanır ve Bayes tahminlerini dondurursanız, Frequentist tahminleri kullanarak bir Frequentist model kullanmanın bir farkı yoktur.

Verilerim değiştirilemediğinden bir test ve doğrulama kümesi kullandım. Sonuç olarak, iki problemi çözmem gerekiyordu. Birincisi MCMC yöntemlerindeki burn-in'e benzer. Test dizimi başlatmak için iyi bir parametre tahminleri setine ihtiyacım vardı ve bu yüzden doğrulama testimi başlatmak için iyi bir önceki yoğunluk elde etmek için elli yıllık önceki verileri kullandım. İkinci problem, testin sorgulanmaması için test etmek için bir çeşit standartlaştırılmış döneme ihtiyaç duymamdı. NBER tarafından tarihli olarak önceki iki iş döngüsünü kullandım.

— Dave Harris
kaynak

Ancak, lineer regresyon modeli için "bilgilendirici olmayan" öncelikli bir MAP tahmin ettiğinizi varsayalım. Bu, model için maksimum olabilirlik tahminini elde etmekle eşdeğerdir, bu nedenle ML'nin değiştirilebilirlik varsayılarak da test setine ihtiyacı yoktur?

— Tim

"Aşırı sığdırma, sinyal olarak muamele gören ve parametre tahmininin içine dahil edilen gürültü olgusudur" Bu tanımın, ilave gürültü modellerine özgü olduğuna inanıyorum. Aksi takdirde, fazla takma ve az takma çok iyi tanımlanmamıştır.

— Çağdaş Özgenç

@CagdasOzgenc teşekkürler. Önerilen bir düzenlemeniz var mı?

— Dave Harris

@Tim MAP tahmincisinden hiç bahsetmedim. Sorunu MAP tahmincisine indirirseniz, sağlamlığı teslim edersiniz. MAP tahmincisi, yoğunluk üzerinde bir maliyet fonksiyonunu en aza indiren noktadır. Yoğunluk yeterli bir istatistiğe sahip değilse bu projeksiyonlar için problemli olabilir. MAP tahmincisi özünde bilgi kaybeder. Orijinal soruda olmayan ve açıkça Ma'nın sunumunun bir parçası olmayan MAP tahmincisini kullanıyorsanız, kendiniz için farklı bir sorun kümesi oluşturursunuz.

— Dave Harris

@Tim MAP tahmincisi Bayesçi karar teorisinden gelir ve Bayesci tahmin ve çıkarımın tepesinde yer alan bir bindirmedir. HARİTA uygundur. Kolaylık seçerken ödenecek bir fiyat vardır. Ya hep ya hiç maliyet fonksiyonu gerçek maliyet fonksiyonunuz değilse, hem bilgiyi hem de doğruluğu teslim ediyorsunuz. Ayrıca Ma'nın sunumunda önerilenden farklı metodolojik meseleler ortaya çıkarırsınız.

— Dave Harris