Regresyondaki katsayıların güven aralığını tahmin etmek için bootstrap kullanmanın iki yolu


21

Verilerime doğrusal bir model uyguluyorum:

yben=β0+β1xben+εben,εben~N-(0,σ2).

Bootstrap yöntemini kullanarak katsayıların ( , ) güven aralığını (CI) tahmin etmek istiyorum . Bootstrap yöntemini uygulamanın iki yolu vardır:β0β1

  1. Eşleştirilmiş yanıt tahmincisi örneği: çiftlerini rastgele yeniden örnekleyin ve her çalışmaya doğrusal regresyon uygulayın. çalışmasından sonra , tahmini katsayılar toplamı elde ederiz . Son olarak, hesaplayın .yben-xbenmβj^,j=1,...mβj^

  2. Örnek hata: İlk olarak gözlemlenen orijinal verilere doğrusal regresyon uygulayın, bu modelden ve hatasını . Daha sonra hatasını rastgele yeniden örnekleyin ve yeni verileri ve . Bir kez daha doğrusal regresyon uygulayın. çalışmasından sonra , tahmini . Son olarak, hesaplayın .βÖ^εbenεben*βÖ^yben*=βÖ^xben+εben*mβj^,j=1,...,mβj^

Sorularım:

  • Bu iki yöntem nasıl farklı?
  • Hangi varsayım altında bu iki yöntem aynı sonucu vermektedir?

7
Ben şahsen ya varsayılan yaklaşım olarak kullanmak olmaz ama bunun yerine temel bootstrap güven aralığı tavsiye ederim. Bkz. S. 8 www.stat.cmu.edu/~cshalizi/402/lectures/08-bootstrap/lecture-08.pdf. İkili lojistik modeli için çok sayıda simülasyon yapıyorum ve yüzdelik veya BCa önyüklemesini kullanmaktan daha fazla temel bootstrap kullanarak güven aralığı kapsamı daha iyi gördüm.
Frank Harrell

1
@FrankHarrell açık olmak gerekirse, "temel" tarafından parametrik olmayan bootstrap atıfta mı?
ndoogan

3
(1) temel bootstrap değil, bootstrap yüzdelik parametrik olmayan güven aralığıdır. Numune bu Not daha varsayım içermeyen resamples artıklar bu koşullu bootstrap daha koşulsuz önyükleme vardır. (x,y)
Frank Harrell

2
Gerçekten bir uzman değilim, ama anladığım kadarıyla, 1) genellikle "vaka yeniden örnekleme", 2) "artık yeniden örnekleme" veya "sabit- " yeniden örnekleme olarak adlandırılır. Yöntemin temel seçimi, işlemden sonra güven aralıklarının nasıl hesaplanacağı anlamına gelmez. Bu bilgiyi esas olarak John Fox'un öğreticisinden aldım . Gördüğüm kadarıyla, her iki bootstraptan sonra, temel bootstrap CI'lerini (örneğin in ile ) hesaplayabilirsiniz . Yoksa burada bir şey mi kaçırıyorum? xboot.ci(my.boot, type="basic")R
COOLSerdash

2
Evet, küme önyükleme yapabilirsiniz. Bu R rms validateve calibratefonksiyonlarda uygulanır.
Frank Harrell

Yanıtlar:


9

Yanıt tahmin çiftleri bir popülasyondan rastgele örnekle elde edilmişse, case / random-x / ilk yeniden örnekleme şemasını kullanmak güvenlidir. Öngörücüler için kontrol edilmişse veya öngörücülerin değerleri deneyci tarafından belirlenmişse, artık / model tabanlı / sabit-x / ikinci yeniden örnekleme şemasını kullanmayı düşünebilirsiniz.

İkisi nasıl farklı? Davison ve Kounen tarafından R'deki uygulamalarla bootstrap'a giriş, bu soru ile ilgili bir tartışmaya sahiptir (bkz. S.9). Ayrıca John Fox'un bu ekindeki R koduna bakın, özellikle rasgele-x şeması için p.5 üzerinde boot.huber ve sabit-x şeması için p.10'da boot.huber.fix işlevlerini görür. İken Shalizi tarafından ders notları iki şemaları farklı veri kümeleri / problemlere uygulanır, Fox'un apandis iki şemaları sık sık yapabilir ne kadar az fark göstermektedir.

İkisinin ne zaman aynı sonuçları vermesi beklenebilir? Bir durum, regresyon modelinin doğru bir şekilde belirtilmesidir, örneğin, değiştirilmemiş doğrusal olmayanlık yoktur ve olağan regresyon varsayımları (örneğin, iid hataları, aykırı değerler yok) karşılanır. Bkz . Fox'un kitabında (R kodu ile yukarıda belirtilen ekin dolaylı olarak ait olduğu) 21. bölüm , özellikle 598. sayfadaki tartışma ve alıştırma 21.3. "Regresyonda rastgele ve sabit yeniden örnekleme" başlıklı. Kitaptan alıntı yapmak

By randomly reattaching resampled residuals to fitted values, the [fixed-x/model-based]
procedure implicitly assumes that the errors are identically distributed. If, for
example, the true errors have non-constant variance, then this property will not be  
reflected in the resampled residuals. Likewise, the unique impact of a high-leverage
outlier will be lost to the resampling.

Bu tartışmadan, fixed-x bootstrap'in neden modelin fonksiyonel formunun doğru olduğunu varsaydığını (hata dağılımının şekli hakkında herhangi bir varsayım yapılmamasına rağmen) öğreneceksiniz.

Derek Bain tarafından hazırlanan İrlanda Aktüerler Topluluğu için bu konuşmanın 12. bölümüne bakınız . Ayrıca neyin "aynı sonuç" olarak değerlendirilmesi gerektiği konusunda bir örneği vardır:

The approach of re-sampling cases to generate pseudo data is the more usual form of   
bootstrapping. The approach is robust in that if an incorrect model is fitted an
appropriate measure of parameter meter uncertainty is still obtained. However re
sampling residuals is more efficient if the correct model has been fitted.

The graphs shows both approaches in estimating the variance of a 26 point data sample
mean and a 52 point sample mean. In the larger sample the two approaches are  
equivalent.
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.