Neden her bir bootstrap numunesi ortalama olarak kabaca üçte iki gözlem içeriyor?


42

Her önyükleme örneğinin (veya torbalı bir ağaç) gözlemlerin ortalama olarak yaklaşık / içereceği iddiasıyla çarpıştım .2/3

Ben şansı hiçbirinde seçildiği anlıyoruz dan çizer yerine geçer sahip örneklerin , yaklaşık ortaya eserler seçilen olmamanın şans.nn(11/n)n1/3

Bu formülün her zaman neden verdiğinin matematiksel açıklaması nedir ?1/3


10
Bunun bootstrap 632+ kuralındaki kökeni olduğuna inanıyorum . .632
dediklerinin - Eski Monica

Yanıtlar:


29

Temel olarak, mesele (ve elbette, e ^ {- 1} = 1 / e \ 1/3 , en azından çok kabaca).limn(11/n)n=e1
e1=1/e1/3

Çok küçük n çalışmaz n- örneğin n=2 , (11/n)n=14 . Bu geçer 13 de n=6 geçer, 0.35 de n=11 ve 0.366 ile n=99 . Eğer ötesine kez n=11 , 1e daha iyi bir tahmindir 13 .

görüntü tanımını buraya girin

Gri kesikli çizgi 13 ; kırmızı ve gri çizgi 1e .

Resmi bir türetme (kolayca bulunabilir) göstermek yerine, (biraz) daha genel bir sonucun neden içerdiğine dair bir taslak (sezgisel, el yazısı argümanı) sunacağım:

ex=limn(1+x/n)n

(Pek çok insan bu olabilmek için tanım içinde , ancak gibi basit sonuçlarından ispatlayabilirim tanımlayan kadar .)exp(x)elimn(1+1/n)n

Gerçek 1: Bu, güçler ve üslup etme ile ilgili temel sonuçlardan gelir.exp(x/n)n=exp(x)

Gerçek 2: büyük olduğunda, Bu, için seri genişlemesinden gelir .nexp(x/n)1+x/nex

(Bunların her biri için daha kesin argümanlar verebilirim, ancak onları zaten bildiğinizi varsayıyorum)

(1) içindeki (2) yerine geçin. Bitti. (Daha resmi argüman olarak işe Bunun için iktidara alındığında Fact 2'de kalan terimler bir soruna yol açacak yeterince büyük olmazlar göstermek zorundayız, çünkü bazı işler alacağını . Ama bu sezgi resmi kanıtlardan ziyade.)n

[Alternatif olarak, Taylor serisini için birinci dereceye getirin. İkinci bir kolay yaklaşım, in binom genişlemesini almak ve terimin dizisindeki terimleri verdiğini göstermek için terim-terim sınırını almaktır. .]exp(x/n)(1+x/n)nexp(x/n)

Öyleyse , sadece yerine .ex=limn(1+x/n)nx=1

Hemen, bu cevabın en üstünde sonucu elde ettik,limn(11/n)n=e1


Gung yorumlarda işaret ettiği gibi, sorunuzdaki sonuç 632 önyükleme kuralının kökenidir

örneğin görmek

Efron, B. ve R. Tibshirani (1997),
"Çapraz Doğrulamadaki İyileştirmeler: .632+ Önyükleme Yöntemi,"
Amerikan İstatistik Kurumu Dergisi Vol. 92, No. 438. (Jun), sayfa 548-560


41

Daha kesin olarak, her önyükleme örneği (veya torbalı ağaç), numunenin değerini içerecektir .11e0.632

Bootstrap'ın nasıl çalıştığını gözden geçirelim. Biz özgün bir örnek olan ile içinde öğeler. Biz öğeleri çizmek değiştirme ile biz boyutu başka bir set elde edene kadar bu orijinal kümesinden .x1,x2,xnnn

Bundan sonra, ilk herhangi bir öğeyi seçme ihtimalinin (örneğin, ) olduğu sonucuna . Bu nedenle, olasılık değil o öğeyi seçmektir . Bu sadece ilk çekiliş için; hepsi bağımsız olan toplam beraberlik vardır, bu yüzden bu eşyayı çekilişlerden hiçbirinde seçmeme olasılığı .x11n11nn(11n)n

Şimdi, büyüyüp büyüyünce ne olacağını düşünelim . Normal hesap hilelerini (veya Wolfram Alpha) kullanarak sonsuza doğru giderken sınırını alabiliriz : nn

limn(11n)n=1e0.368

Bu bir öğenin olasılık var değil seçilir. Seçtiğiniz öğenin olasılığını bulmak için bir kişiden çıkarın, bu size 0.632 verir.


5

Değişim ile örnekleme, "başarı" nın seçilmiş bir örnek olduğu binom denemelerinin bir dizisi olarak modellenebilir. örneği orjinal veri kümesi için, "başarı" olasılığı ve "başarısızlık" olasılığı . örneklem büyüklüğü için tam olarak kez bir örnek seçme olasılığı binom dağılımına göre verilir:n1/n(n1)/nbx

P(x,b,n)=(1n)x(n1n)bx(bx)

Bir önyükleme örneğinin spesifik durumunda, örneklem büyüklüğü örnek sayısı eşittir . Letting yaklaşım sonsuz elde ederiz:bnn

limn(1n)x(n1n)nx(nx)=1ex!

Eğer orijinal veri setimiz büyükse, bu formülü bir örneğin bir bootstrap örneğinde tam olarak kez seçilme olasılığını hesaplamak için kullanabiliriz . İçin , olasılığıdır , ya da yaklaşık . Bir örneğin en az bir kez örneklenmesi olasılığı, bu nedenle .xx=01/e0.36810.368=0.632

Söylemeye gerek yok, bunu titizlikle kalem ve kağıt kullanarak türetmiştim ve Wolfram Alpha kullanmayı bile düşünmedim.


3

Sadece @ retsreg'in cevabına ekleyerek bu, R'deki sayısal simülasyonla oldukça kolay bir şekilde gösterilebilir:

N <- 1e7 # number of instances and sample size
bootstrap <- sample(c(1:N), N, replace = TRUE)
round((length(unique(bootstrap))) / N, 3)
## [1] 0.632

1

Bu sayılarak kolayca görülebilir. Kaç tane olası örnek var? n ^ n. Belirli bir değer içeren kaç tane NOT? (N-1) ^ n. Bir numunenin belirli bir değere sahip olma olasılığı - (1-1 / n) ^ n, sınırın yaklaşık 1 / 3'üdür.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.