Önyükleme, tahmin edicinin örnekleme dağılımını yaklaşık olarak ne kadar gösterir?


29

Son zamanlarda bootstrap okuduktan sonra, beni hala şaşırtan kavramsal bir soru buldum:

Bir popülasyonunuz var ve popülasyonu temsil etmek için P kullandığım bir popülasyon niteliğini, yani bilmek istiyorsunuz . Bu θ örneğin nüfus ortalama olabilir. Genellikle popülasyondaki tüm verileri alamazsınız. Böylece N popülasyonundan N büyüklüğünde bir X örneği çizersiniz. Diyelim ki sadelik için örnek kimliğiniz var. Sonra senin tahmincisi elde θ = gr ( X ) . Kullanmak istediğiniz θ ilgili çıkarımlar yapmak için İçeride ISTV melerin RWMAIWi'nin sen değişkenliğiniθ=g(P)PθXN-θ^=g(X)θ^θθ^ .

İlk olarak, bir orada gerçek örnek dağılımı İçeride ISTV melerin RWMAIWi'nin . Kavramsal olarak, popülasyondan birçok örnek (her biri N büyüklüğü vardır ) çizebilirsiniz . Her zaman bir gerçekleşme olacaktır θ = gr ( X ) farklı bir örnek olacak her zamanı göstermektedir. Sonra sonunda, kurtarmak mümkün olacak gerçek dağılımını İçeride ISTV melerin RWMAIWi'nin . Tamam, en azından bu dağılımı tahmini için kavramsal bir ölçüttür İçeride ISTV melerin RWMAIWi'nin . Yeniden ifade etmeme izin verin: nihai amaç, gerçek dağılımını tahmin etmek veya tahmin etmek için çeşitli yöntemler kullanmaktır .θ^Nθ^=g(X)θ^θ^ .θ^

Şimdi, işte soru geliyor. Genellikle, N veri noktası içeren yalnızca bir örneğiniz olur . Sonra bu örnek birçok kez gelen resample ve bir önyükleme dağılımı ile gelecek İçeride ISTV melerin RWMAIWi'nin . Sorum şu: yakın bu önyükleme dağıtım ne kadar doğrudur örnekleme dağılımının İçeride ISTV melerin RWMAIWi'nin ? Bunu ölçmenin bir yolu var mı?XNθ^θ^


1
Bu yüksek oranda ilişkili soru , bu soruyu muhtemelen bir yineleme yapma noktasına kadar ek bilgi hazinesi içermektedir.
Xi'an,

Öncelikle, sorularıma hemen cevap verdiğiniz için hepinize teşekkür ederim. Bu web sitesini ilk defa kullanıyorum. Sorumun kimsenin dikkatini dürüstçe çekeceğini asla beklemedim. Burada küçük bir sorum var, 'OP' nedir? @ Silverfish
KevinKim

@Chen Jin: "OP" = orijinal poster (yani siz!). Kabul ettiğim bir kısaltmanın kullanımı için özür dilemek potansiyel olarak kafa karıştırıcıdır.
Silverfish

1
Daha yakından ifadenizi eşleşecek şekilde ben başlık düzenledikten "Sorum şu: yakın gerçek dağılımına Bunun ne kadar İçeride ISTV melerin RWMAIWi'nin ? Nicelik olarak ifade bir yolu var mı?" Düzenlememin niyetinizi yansıttığını düşünmüyorsanız geri almaktan çekinmeyin. θ^
Silverfish,

@Silverfish Çok teşekkürler. Bu posteri başlattığımda, sorum hakkında gerçekten emin değilim. Bu yeni başlık iyi.
KevinKim

Yanıtlar:


20

Bilgi Teorisinde bir dağılımın diğerine ne kadar "yakın" olduğunu ölçmenin tipik yolu KL-diverjansı kullanmaktır.

Çok eğriltilmiş uzun kuyruklu bir veri kümesiyle göstermeye çalışalım - Houston havaalanına uçak varışlarında gecikmeler ( hflights paketinden). Let θ ortalama tahmincisi olması. İlk olarak, örnekleme dağılımını bulmak İçeride ISTV melerin RWMAIWi'nin ve daha sonra önyükleme dağılımını İçeride ISTV melerin RWMAIWi'ninθ^θ^θ^

İşte veri kümesi:

görüntü tanımını buraya girin

Gerçek ortalama 7.09 dk.

İlk olarak, örnekleme dağılımı elde etmek örneklerin belirli sayıda yapmak İçeride ISTV melerin RWMAIWi'ninθ^ o zaman bir örnek almak ve birçok önyükleme numuneleri almak.

Örneğin, örneklem büyüklüğü 100 ve 5000 tekrar olan iki dağıtıma bir göz atalım. Görsel olarak bu dağılımların birbirinden ayrı olduğunu ve KL'nin ayrılmasının 0,48 olduğunu görüyoruz.

görüntü tanımını buraya girin

Ancak, örneklem büyüklüğünü 1000'e çıkardığımızda, birleşmeye başlarlar (KL sapması 0,11)

görüntü tanımını buraya girin

Ve örneklem büyüklüğü 5000 olduğunda, çok yakındırlar (KL ayrışması 0.01'dir)

görüntü tanımını buraya girin

Bu, elbette, o kadar hangi önyükleme numune bağlıdır, ama KL sapma biz örnek boyutunu artırmak ve böylece önyükleme dağılımı olarak iner görebilirsiniz inanıyoruz İçeride ISTV melerin RWMAIWi'nin numune dağıtımı yaklaşımlar İçeride ISTV melerin RWMAIWi'ninθ^θ^ KL Divergence açısından. Emin olmak için birkaç önyükleme yapmayı deneyebilir ve KL farklılığının ortalamasını alabilirsiniz.

İşte bu deneyin R kodu: https://gist.github.com/alexeygrigorev/0b97794aea78eee9d794


5
+ 1 ve bu aynı zamanda verilen herhangi bir örneklem büyüklüğü için (örneğin 100 gibi) çizme önyargısının büyük ve kaçınılmaz olabileceğini göstermektedir.
amip diyor Reinstate Monica

Bu harika! Yani dağılımını izin için İçeride ISTV melerin RWMAIWi'nin yakın DOĞRU dağıtımına olmak bootstrap gelen İçeride ISTV melerin RWMAIWi'nin , biz büyük örneklem büyüklüğü ihtiyaç N hakkını? Herhangi bir sabit örneklem büyüklüğü için, başlangıç ​​bandından üretilen dağılım @ amoeba tarafından belirtilen TRUE dağılımından çok farklı olabilir. θ^θ^N
KevinKim

Bir sonraki sorum şudur: Eğer yeterince büyük tutarsam, 2 önyükleme yaptım, biri sadece B = 10 kez yeniden, diğeri de B = 10000 . Dağılımı arasındaki fark nedir θ bu 2 göbeğini çıkan? Düzeltmeye Bu soru aslında soruyor N oynadığı rol nedir, B dağılımını oluşturmada İçeride ISTV melerin RWMAIWi'nin . @GrigorevNB=10B=10000θ^NBθ^
KevinKim

1
@Chen ancak dağıtım ait İçeride ISTV melerin RWMAIWi'nin sen resamples, hakkını yaparak almanızı şeydir? Dolayısıyla, B = 10 ve B = 10000 arasındaki fark, bir durumda dağıtımınızı oluşturmak için 10 sayı almanızdır (çok fazla bilgi standart sapma için çok güvenilir bir tahmin değil) ve diğer durumda 10000 sayı (çok daha fazla) dürüst). θ^B=10B=100001010000
amip diyor Reinstate Monica

1
@Chen, sana biraz ya karışık ya da ne hakkında çok açık olmayan düşünüyorum yorumunuzda olması gerekiyordu. 5 kez yeniden örnek alırsanız, 5 sayı kümesi alırsınız . Bu nasıl bir dağıtım? Bu bir sayılar kümesidir! Bu sayılar F B dağılımı denilen şeyden geliyor . Ne kadar çok sayı alırsanız, F B'yi o kadar iyi tahmin edebilirsiniz . F555FBFB
amip diyor Reinstate Monica

23

Özyükleme, doğrudur CDF ampirik CDF yakınsaması dayanmaktadır F , n ( x yakınlaşıyor(aynı N sonsuza gider)için F ( x ) her için x . Bu nedenle bootstrap dağılımının yakınsama İçeride ISTV melerin RWMAIWi'nin ( X 1 , ... , x , n ) = g ( E n ) bir hızda gerçekleşir, bu yakınsama ile tahrik edilir

F^n(x)=1ni=1nIXixXiiidF(x)
nF(x)xθ^(X1,,Xn)=g(F^n) içinher birx, çünkün xda bu oran da otomatik transfer etmez dağılımını sınırlayıcıg( E n). Uygulamada, yaklaştırma değişkenliği belirlemek için, dağılım, bir ön yükleme değerlendirme üretebilirg( E n
n{F^n(x)F(x)}distN(0,F(x)[1F(x)])
g(F^n)g(F^n) çift ​​önyükleme ile, yani önyükleme önyükleme değerlendirmelerini önyükleme yoluyla.

enter image description hereFF^n for n=100 observations and the rhs plots 250 replicas of the lhs, for 250 different samples, in order to measure the variability of the cdf approximation. In the example I know the truth and hence I can simulate from the truth to evaluate the variability. In a realistic situation, I do not know F and hence I have to start from F^n instead to produce a similar graph.

Further update: Here is what the tube picture looks like when starting from the empirical cdf: enter image description here


5
The crux of this answer is that the bootstrap works because it is a large-sample approximation. I don't think this point is emphasized enough
shadowtalker

2
I mean, "emphasized often enough in general"
shadowtalker

@Xi'an Thanks a lot. I like the last 2 panels, so in this example, let's pretend we don't know the true cdf, i.e. the red curve on the lhs, I just have the empirical cdf F^ from one sample of n=100. Then I do resampling from this sample. Then I produce a similar graph as the rhs. Will this new graph has a wider tube than the current tube on your current rhs figure? And will the new tube still centered around the true cdf, i.e. the red curve as the tube on you current rhs figure?
KevinKim

3
The tube produced by creating empirical cdfs based on samples created from one empirical cdf is eventually less wide than the one produced from the true F as we are always using the same n datapoints. And the new tube is centred around the empirical cdf, not the true F. There is thus bias in scale and location for that tube.
Xi'an

@Xi'an Very nice! it would be even nicer if the 2nd and 3rd figure can be combined together in one figure
KevinKim
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.