Bu yüzden referans verdiğiniz aşırı uydurma sorusunu yanıtladım ve videoyu izledim ve blog gönderisini okudum. Radford Neal, Bayes modellerinin fazla uymadığını söylemiyor. Aşırı sığmanın, sinyal olarak muamele gören ve parametre tahmininin içine karışan gürültü olgusu olduğunu hatırlayalım. Model seçim hatasının tek kaynağı bu değildir. Neal'ın tartışması daha geniş olmakla birlikte, aşırı sığdırma tartışmasına girdiği küçük bir örneklem büyüklüğü fikrine girerek.
Bayesian modellerinin tüm Bayesian modellerine göre daha fazla uyum sağlayabileceğine dair önceki yayınımı kısmen gözden geçireyim, ancak bunu tahminleri iyileştirecek şekilde yapın. Yine, sinyalin gürültü ile karıştırılmasına, Bayes yöntemlerindeki belirsizliğe, posterior dağılıma geri dönersek, bu belirsizliğin, sinyalin ve gürültünün ne olduğu konusundaki niceliğinin ölçümüdür. Bunu yaparken, Bayesci yöntemler bütün poster çıkarsama ve tahminlerde kullanıldığı için gürültüyü sinyal tahminlerine dahil etmektedir. Aşırı uyum ve diğer model sınıflandırma hatası kaynakları Bayesci yöntemlerde farklı bir sorun türüdür.
Basitleştirmek için Ma'nın konuşmasının yapısını benimseyelim ve lineer regresyona odaklanalım ve derin öğrenme tartışmasından kaçınalım, çünkü bahsettiği gibi, alternatif yöntemlerden sadece fonksiyon kompozisyonları var ve lineer mantık arasında doğrudan bir bağlantı var regresyon ve derin öğrenme.
Aşağıdaki potansiyel modeli düşünün
y=β0+β1x1+β2x2+β3x3.
Geniş boyutta bir örnek oluşturalım
N iki alt numuneden oluşur,
n1,n2, nerede
n1 eğitim seti ve
n2doğrulama kümesidir. Birkaç uyarıya rağmen Bayes yöntemlerinin neden ayrı bir eğitim ve doğrulama setine ihtiyaç duymadığını göreceğiz.
Bu tartışma için, her model için bir tane olmak üzere sekiz parametre daha oluşturmamız gerekiyor. Onlarm1…8. Multinom dağılımını takip ederler ve regresyon katsayıları gibi uygun önceliklere sahiptirler. Sekiz model
y=β0+β1x1+β2x2+β3x3,
y=β0,
y=β0+β1x1,
y=β0+β2x2,
y=β0+β3x3,
y=β0+β1x1+β2x2,
y=β0+β1x1+β3x3,
y=β0+β2x2+β3x3,
y=β0+β1x1,
y=β0+β2x2,
ve
y=β0+β3x3.
Şimdi Bayesci ve Frequentist yöntemler arasındaki farkların yabani otlarına girmeliyiz. Eğitim setinde,n1,Frequentist yöntemlerini kullanan modelci sadece bir model seçer. Bayesian yöntemlerini kullanan modelci çok kısıtlı değildir. Bayesci modelci sadece bir model bulmak için bir model seçim kriteri kullanabilse de, model ortalamasını kullanmakta da serbesttirler. Bayesci modelci, doğrulama segmentinin ortasındaki seçilen modelleri de değiştirmekte serbesttir. Moreso, modelleyici Bayesian yöntemlerini kullanarak seçim ve ortalama arasında karışabilir ve eşleşebilir.
Gerçek dünyadan bir örnek vermek gerekirse, 78 iflas modelini test ettim. 78 modelden 76'sının birleşik posterior olasılığı yüzde birinin binde biri kadardı. Diğer iki model sırasıyla yüzde 54 ve yüzde 46 idi. Neyse ki, herhangi bir değişken paylaşmadılar. Bu, her iki modeli de seçmeme ve diğer 76'yı görmezden gelmeme izin verdi. Her ikisi için de tüm veri noktalarına sahip olduğumda, tahminlerini, iki modelin posterior olasılıklarına göre ortaladım, eksik veri noktalarını engellediğimde sadece bir model kullandım. diğer. Bir eğitim setim ve validasyon setim olsa da, bir Frequentist'in sahip olduğu aynı sebepten değildi. Ayrıca, her günün sonunda iki iş döngüsü boyunca posterlerimi her günün verileriyle güncelledim. Bu, doğrulama setinin sonundaki modelimin eğitim setinin sonundaki model olmadığı anlamına geliyordu. Bayes modelleri öğrenmeyi durdurmazken Frequentist modeller de durur.
Daha derine inmek, modellerimizle somutlaşalım. Eğitim örneği sırasında, model seçimini eşleştiren en uygun Frequentist model ve Bayesian modelin ya da alternatif olarak model ortalamasındaki model ağırlığının o kadar büyük olduğunu varsayalım ki Frequentist model için neredeyse ayırt edilemez. Bu modelin
y=β0+β1x1+β2x2+β3x3.
Doğada gerçek modelin
y=β0+β1x1+β3x3.
Şimdi doğrulama setindeki farkı ele alalım. Frequentist model verilere gereğinden fazla takılmıştır. Diyelim ki bir noktaya kadarni2model seçimi veya doğrulama prosedürünün seçimi doğadaki gerçek modele değiştirmiş olması. Ayrıca, model ortalamalaması kullanılmışsa, doğadaki gerçek model, modellerin seçiminden çok önce tahminte ağırlık taşıyordu. ET Jaynes olasılık teorisi konusundaki kararında bu konuyu tartışmak için biraz zaman harcıyor. İş yerinde kitabım var, bu yüzden size iyi bir alıntı yapamıyorum, ama okumalısınız. ISBN'si 978-0521592710'dur.
Modeller Bayes düşüncesindeki parametrelerdir ve bu nedenle rastgele veya tercih ederseniz belirsizdir. Bu belirsizlik validasyon sürecinde sona ermez. Sürekli güncellenir.
Bayesian ve Frequentist yöntemler arasındaki farklılıklar nedeniyle, dikkate alınması gereken başka vakalar da vardır. Birincisi parametre çıkarımından, ikincisi ise resmi tahminlerden gelir. Bayesci yöntemlerde aynı şey değildirler. Bayes yöntemleri çıkarım ve karar alma süreçlerini resmi olarak ayırır. Ayrıca parametre tahminini ve tahmini ayırırlar.
Genelliğin kaybı olmadan bir modelin başarılı olacağını düşünelim. σ2^<kve bir başarısızlık. Diğer parametreleri göz ardı edeceğiz, çünkü basit bir fikre ulaşmak çok fazla iş olacak. Bayesian yöntemlerini kullanan modelci için bu, Frequentist yöntemleri kullanan sorudan çok farklı bir soru tipidir.
Frequentist için eğitim setinden yola çıkılarak bir hipotez testi yapılır. Frequentist yöntemleri kullanan modelleyici, tahmini varyansın eşit veya daha büyük olup olmadığını test eder.k ve boyutu olan örnek üzerindeki null değerini reddetmeye çalışın n2 parametreleri keşfedilenlere sabitleyerek n1.
Bayesian yöntemlerini kullanan modelleyici için, örneklem sırasında parametre tahminleri oluştururlar n1 ve arka yoğunluğu n1 örnek için öncelikli olur n2. Değiştirilebilirlik özelliğinin geçerli olduğu varsayılarak,n2ortak örnekten oluşan bir olasılık tahmininin tüm duyularına eşittir. Bunları iki örneğe bölmek, matematiğin onları hiç ayırmamaya eşdeğerdir.
Tahminler için de benzer bir sorun söz konusudur. Bayesci yöntemlerin her gözlemle de güncellenen bir tahmine dayalı dağılımı vardır, oysa Frequentist olanı numunenin sonunda dondurulurn1. Tahmin yoğunluğu şu şekilde yazılabilir:Pr(x~=k|X). Eğerx~ tahmin ve X örnek, o zaman belirteceğimiz parametreler nerede θ? Frequentist tahmin sistemleri mevcut olmasına rağmen, çoğu insan nokta tahminlerini gerçek parametreler olarak görür ve kalıntıları hesaplar. Bayesian yöntemleri her bir tahmini tek bir noktadan ziyade tahmin edilen yoğunluğa göre puanlar. Bu tahminler, Frequentist çözümlerde kullanılan nokta yöntemlerinden farklı parametrelere bağlı değildir.
Bir yan not olarak, standart hatalar kullanılarak resmi Frequentist tahmin yoğunlukları vardır ve bunlar üzerinde puanlama yapılabilir, ancak bu pratikte nadirdir. Belirli bir ön bilgi yoksa, iki tahmin kümesi aynı veri noktaları kümesi için aynı olmalıdır. Farklılaşacaklar çünkün1+n2>n1 ve böylece Bayes çözümü daha fazla bilgi getirecektir.
Önceden önemli bir bilgi yoksa ve nokta tahminleri yerine Frequentist tahmin yoğunlukları kullanılıyorsa, sabit bir örnek için tek bir model seçilirse Bayes ve Frequentist yöntemlerin sonuçları aynı olacaktır. Önceden bilgi varsa, Bayesian yöntemi daha doğru tahminler üretme eğiliminde olacaktır. Bu fark pratikte çok büyük olabilir. Ayrıca, model ortalaması varsa, Bayesian yönteminin daha sağlam olması muhtemeldir. Model seçimini kullanır ve Bayes tahminlerini dondurursanız, Frequentist tahminleri kullanarak bir Frequentist model kullanmanın bir farkı yoktur.
Verilerim değiştirilemediğinden bir test ve doğrulama kümesi kullandım. Sonuç olarak, iki problemi çözmem gerekiyordu. Birincisi MCMC yöntemlerindeki burn-in'e benzer. Test dizimi başlatmak için iyi bir parametre tahminleri setine ihtiyacım vardı ve bu yüzden doğrulama testimi başlatmak için iyi bir önceki yoğunluk elde etmek için elli yıllık önceki verileri kullandım. İkinci problem, testin sorgulanmaması için test etmek için bir çeşit standartlaştırılmış döneme ihtiyaç duymamdı. NBER tarafından tarihli olarak önceki iki iş döngüsünü kullandım.