Bootstrap: aşırı uyum sorunu


14

Çizerek bir gerçekleştirir sözde parametrik olmayan önyükleme varsayalım boyutu örnekleri , n orijinal her n yerine gözlemler. Bu yordamın ampirik cdf tarafından kümülatif dağılım işlevini tahmin etmeye eşdeğer olduğuna inanıyorum:Bnn

http://en.wikipedia.org/wiki/Empirical_distribution_function

ve daha sonra arka arkaya tahmini cdf B sürelerinden gözlemleri simüle ederek bootstrap örneklerinin elde edilmesi .nB

Eğer bu konuda haklıysam, ampirik cdf yaklaşık N parametrelerine sahip olduğu için aşırı takma sorununu ele almak gerekir. Tabii ki, asimptotik olarak popülasyon cdf'ye yakınsar, ama sonlu örnekler ne olacak? Örneğin, size 100 gözlemim olduğunu söylesem ve cdf'yi iki parametreyle olarak tahmin edersem, telaşa kapılmayacaksınız. Ancak, parametre sayısı 100'e kadar çıksaydı, hiç de makul görünmüyordu.N(μ,σ2)

Benzer şekilde, standart bir çoklu doğrusal regresyon kullanıldığında, hata teriminin dağılımı olarak tahmin edilir . Kalıntıların önyüklemesine geçmeye karar verirse, şimdi sadece hata terimi dağılımını işlemek için kullanılan yaklaşık n parametre olduğunu fark etmelidir .N(0,σ2)n

Beni bu konuyu açıkça ele alan bazı kaynaklara yönlendirebilir misiniz, yoksa yanlış yaptığımı düşünüyorsanız neden sorun olmadığını söyleyebilir misiniz?


Bu "parametrik olmayan" önyüklemeyi görüntülemenin bir yolu, bazı büyük, sonlu popülasyonda (örn. Kayıt Sayımı ortalaması) normallik parametrik varsayımını bir "ilgi miktarına" dönüştürmesidir. Aslında, önyüklemenin bu versiyonunun, popülasyondaki her farklı "tip" için 1 kategori ile, çok terimli modelin "maksimum olabilirlik" tahminlerine dayandığını gösterebilirsiniz.
olasılık

Yanıtlar:


2

Sorunuzu doğru anladığımdan tamamen emin değilim ... yakınsama sırasına ilgi duyduğunuzu varsayıyorum?

çünkü ampirik cdf'nin yaklaşık N parametresi vardır. Tabii ki, asimptotik olarak popülasyon cdf'ye yakınsar, ama sonlu örnekler ne olacak?

Bootstrap teorisinin temellerini okudunuz mu? Sorun, oldukça hızlı (matematiksel) oldukça vahşi hale gelmesidir.

Neyse, bir göz atmanızı tavsiye ederim

van der Vaart "Asimtotik İstatistikler" bölüm 23.

Salon "Bootstrap ve Edgeworth açılımları" (van der Vaart'tan daha uzun ama özlü ve daha az el yıkama)

temeller için.

Chernick "Bootstrap Metotları" matematikçilerden ziyade kullanıcılara yöneliktir ancak "bootstrap'ın başarısız olduğu" konusunda bir bölümü vardır.

Klasik Efron / Tibshirani, bootstrap'ın neden gerçekten işe yaradığına dair çok az şey var ...


4

N(μ,σ2)

Sezgisel olarak, sonlu örneklerden önyükleme, altta yatan dağılımın ağır kuyruklarını hafife alır. Bu açıktır, çünkü sonlu örneklerin gerçek dağılımları sonsuz veya daha da kötüsü ağır kuyrukları olsa bile sınırlı bir aralığı vardır. Dolayısıyla bootstrap istatistiği asla orijinal istatistik kadar "vahşi" olmayacaktır. (Parametrik) regresyonda çok fazla parametre nedeniyle aşırı takılmayı önlemeye benzer şekilde, birkaç parametreli normal dağılımı kullanarak aşırı takılmayı önleyebiliriz.

Yorumları yanıtlayarak düzenleyin: CDf'yi tahmin etmek için bootstrap'a ihtiyacınız olmadığını unutmayın. Bazı istatistiklerin dağılımını (kantinler, anlar, ne gerekiyorsa dahil en geniş anlamda) almak için genellikle bootstrap kullanırsınız. Bu yüzden mutlaka bir aşırı sığdırma probleminiz yoktur ("sonlu verilerimden kaynaklanan tahmin, gerçek vahşi dağılımla görmem gerekenlere kıyasla çok güzel görünüyor" açısından). Ancak ortaya çıktığı gibi (alıntılanan makaleye ve aşağıdaki Frank Harrel'in yorumuna göre), böyle bir aşırı sığdırma probleminin elde edilmesi, aynı istatistiklerin parametrik tahminiyle ilgili problemlerle bağlantılıdır.

Sorunuzun da ifade ettiği gibi, önyükleme parametrik tahminle ilgili sorunlara karşı her derde deva değildir. Önyüklemenin tüm dağıtımı kontrol ederek parametre sorunlarına yardımcı olması umudu sahte.


1
Önyüklemede yer alan etkili parametrelerin sayısının örneklerin boyutuyla hemen hemen aynı olması göz önüne alındığında, bootstrap'in çalışmayı nasıl yönettiği hala belirsizdir. Bir tahminim var: bootstrap'ın nihai hedefi tüm dağılımı tahmin etmek değil, dağılımın 1-2 istatistiklerini tahmin etmektir. Bu nedenle, önyüklemeye gömülü ampirik cdf çok fazla takılmış olmasına rağmen, 1-2 tahmini istatistik bir şekilde iyi sonuçlanır. Bunu doğru anladım mı?
James

4
Etkili parametre sayısı numune boyutuyla aynı değildir. Ampirik kümülatif dağılım fonksiyonunun varyansı, dağılımın tahmin edilmesi gereken 4 bilinmeyen parametresi olduğunda dağıtıma bir parametrik uyumun varyansı ile aynıdır. Bunun bir nedeni ampirik CDF tahminlerinin artan sırada olması gerektiğidir.
Frank Harrell

İyi bir nokta. Referans verebilir misiniz?
James

Keşke bir tane olsaydı. Bunu geçmişte Monte Carlo simülasyonuyla göstermiştim.
Frank Harrell

L2F^FF^(x)F(x)

0

Bir sezgi kaynağı, iid verileri için parametrik CDF'ler ile ECDF'ler için yakınsama oranlarını karşılaştırmak olabilir.

n1/2

n1/2σμ

Dolayısıyla, belirli bir anlamda, daha fazla örnek elde etmek için ihtiyacınız olan oran aynıdır, ister ampirik bir CDF kullanarak CDF'yi tahmin ediyor olun, isterse doğrudan bir örnek-ortalama tipi tahmin edici kullanarak bir parametre tahmin ediyor olun. Bu Frank Harrell'in "Etkili parametre sayısı örnek büyüklüğü ile aynı değil" yorumunu haklı çıkarmaya yardımcı olabilir.

Tabii ki, bütün hikaye bu değil. Oranlar farklı olmasa da sabitler değişir. Ve çok daha ECDFs daha parametrik olmayan bootstrap ne var ki --- hala gerek yapmak bunu tahmin kez ECDF şeyler.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.