Bootstrap örneğinin ortalaması ve örneğin istatistiği


18

Stastitic (örn. Ortalama) için bu örnekten bir örnek ve bootstrap örneğim olduğunu varsayalım . Hepimizin bildiği gibi, bu önyükleme örneği istatistiğin tahmincisinin örnekleme dağılımını tahmin eder .χ

Şimdi, bu bootstrap örneğinin ortalaması popülasyon istatistiği için orijinal örneğin istatistiğinden daha iyi bir tahmin midir? Hangi koşullarda böyle olur?


2
Önyükleme numunenin ortalaması olan numunenin ortalaması ve bu durumda bir önyükleme örneği gerekmez.
Xi'an

1
Teşekkürler @ Xi'an Takip ettiğimden emin değilim. Bootstrap numunesinin ortalaması sayısal olarak numunenin ortalamasından farklı olabilir. İkisinin hala teorik olarak eşdeğer olduğunu söylemeye mi çalışıyorsunuz? Her iki uçta da onaylayabilir misiniz?
Amelio Vazquez-Reina

2
Terminolojimizi açıklığa kavuşturalım: "bootstrap örneği", verilerden değiştirilen belirli bir örneği ifade edebilir veya böyle bir örneğin bir gerçekleştirme olarak kabul edileceği (çok değişkenli) rastgele bir değişkeni ifade edebilir. Bir gerçekleşmenin ortalamasının verilerin ortalamasından farklı olabileceği konusunda haklısınız, ancak @ Xi'an, rastgele değişkenin ortalamasının (tanım olarak popülasyon ortalamasının bootstrap tahmini olduğu ) çakışması gerektiği konusunda daha ilgili bir gözlem sağlar. verinin ortalaması ile.
whuber

1
O zaman sorunuz neredeyse stats.stackexchange.com/questions/126633/… ile aynıdır ; tek fark, bootstrap örnek gerçekleşmelerinin çakışabilmesidir, ancak cevapta verilen analiz aynı sonuçla bootstrap durumuna kolayca taşınabilir.
whuber

1
Ben @stuber bağlantısını görüyorum, ancak bootstrap'ta bir "yedek alt kümeler" var ve söylediğiniz gibi gerçekleşmeler çakışabilir. Önyüklemede yeniden örnekleri almak için kullanılan dağılımın (örneğin, yalancılık), aynı zamanda önyükleme örneğindeki tahminin yanlılığını da etkileyebileceğini hayal ediyorum. Belki de cevap, tüm pratik konular için farkın ihmal edilebilir olmasıdır. Sorunun peşinde olan budur: koşullar, incelikler ve uygulamadaki fark.
Amelio Vazquez-Reina

Yanıtlar:


19

Maddenin geneline odaklanmak için genelleştirelim. Şüphe bırakmamak için en küçük ayrıntıları heceleyeceğim. Analiz sadece aşağıdakileri gerektirir:

  1. Aritmetik ortalama sayılar kümesinin olarak tanımlanmıştırz1,,zm

    1m(z1++zm).
  2. Beklenti doğrusal bir operatördür. Yani, rasgele değişkenler ve α i sayılar olduğunda, doğrusal bir kombinasyon beklentisi beklentilerin doğrusal birleşimidir,Zi,i=1,,mαi

    E(α1Z1++αmZm)=α1E(Z1)++αmE(Zm).

Let bir örnek olarak ( B 1 , ... , B k ) bir veri kümesi elde edilen X = ( x 1 , ... , x n ) alarak k üniform elemanları x değiştirme ile. Let m ( B ) aritmetik ortalaması olarak B . Bu rastgele bir değişkendir. SonraB(B1,,Bk)x=(x1,,xn)kxm(B)B

E(m(B))=E(1k(B1++Bk))=1k(E(B1)++E(Bk))

bunu beklenti doğrusallığı izler. öğelerinin hepsi aynı şekilde elde edildiğinden, hepsinin aynı beklentileri vardır, b diyor ki:Bb

E(B1)==E(Bk)=b.

Bu, aşağıdakileri basitleştirir

E(m(B))=1k(b+b++b)=1k(kb)=b.

Tanım olarak, beklenti, değerlerin olasılık-ağırlıklı toplamıdır. Her değerinin eşit 1 / n seçme şansına sahip olduğu varsayıldığından ,X1/n

E(m(B))=b=E(B1)=1nx1++1nxn=1n(x1++xn)=x¯,

verinin aritmetik ortalaması.

Soruyu cevaplamak için , kişi popülasyon ortalamasını tahmin etmek için veri ortalaması kullanıyorsa, önyükleme ortalaması ( k = n durumudur ) da ˉ x'e eşittir ve bu nedenle nüfus ortalamasının bir tahmincisi olarak özdeştir .x¯k=nx¯


Verilerin doğrusal işlevleri olmayan istatistikler için aynı sonucun olması gerekmez. Bununla birlikte, istatistiğin veriler üzerindeki değeri yerine bootstrap ortalamasını değiştirmek yanlış olur: bootstrapping bu şekilde çalışmaz. Bunun yerine, bootstrap ortalamasını veri istatistiği ile karşılaştırarak istatistiğin yanlılığı hakkında bilgi ediniriz . Bu , önyargıyı kaldırmak için orijinal istatistiği ayarlamak için kullanılabilir . Bu şekilde, önyargı düzeltmeli tahmin, böylece orijinal istatistik ve önyükleme ortalamasının cebirsel bir kombinasyonu haline gelir. Daha fazla bilgi için, "BCa" (önyargı düzeltmeli ve hızlandırılmış önyükleme) ve "ABC" konularına bakın. Wikipedia bazı referanslar sağlar.


Bootstrap ortalamasının beklentisinin veri ortalamasına eşit olduğunu mu söylüyorsunuz? Bootstrap ortalamasının kendisi (orijinal) veri örneği tarafından belirlenmez.
capybaralet

@ user2429920 Önyükleme ortalaması, örnek tarafından belirlenen bir istatistiktir. Bu anlamda numune ortalaması ile aynıdır. Beklentisi örnekleme dağılımı anlamında alınır. "Beklenti" yi, tekrarlanan alt örnekleme ile bootstrap ortalamasını hesaplama işlemine göre farklı bir anlamda kullanıyor olabileceğinizden şüpheleniyorum .
whuber

1
Bence son paragraf, genel olduğu ve sadece ortalama istatistiğe odaklanmadığı için bu sorunun gerçek cevabıdır. OP'nin yaptığıyla aynı şüpheye sahiptim ve BCa'nın varlığından haberdar değildim. Her ne kadar bu cevaptaki gösteri bana pek yardımcı olmadıysa da (ortalamayı istatistiğim olarak kullanmıyorum) son paragraf konunun özü hakkında çok açıktı. Xi'an'ın cevabının aynı zamanda ortalama istatistiğin kullanıldığı duruma da değindiğine inanıyorum. Teşekkür ederim!
Gabriel

1
@ Gabriel iyi puan. Kaydı kontrol ettim: düzenlemeden önce, bu soru aslında sadece ortalama hakkında sordu . Bu yüzden cevaplar bu istatistiğe bu kadar odaklanmış görünüyor.
whuber

9

Önyükleme dağılımı olarak tanımlandığı için , F , n ( x ) = 1 Önyükleme ortalama dağılım olan E F , n [ X ] = 1

F^n(x)=1ni=1nIXixXiiidF(x),
(eğer varsa), bu beklenti, yani rastgele çeken bir ortalama bir simülasyon versiyonu uygulamak, bu yaklaşım Monte Carlo değişkenlik vardırE , F , n[X], ancak ortalama (ampirik ortalamanın tahmini ) ve bootstrap simülasyonlarının sayısının sonsuza kadar büyüdüğü zamanki sınırı tam olarak ˉ X n'dir.
EF^n[X]=1ni=1nXi=X¯n
EF^n[X]X¯n

2
+1 Bu aslında yazmak istediğim cevap, ancak bazı okuyucular için çok opak olabileceğinden korktum. Yine de çok zarif sundu görmek sevindim. Yine de, son cümlenizde ne demek istediğinizden emin değilim, simüle edilmiş yaklaşımın "beklentisini" ortalamasına "sınırından" ayırdığınız görünmüyor: beklenti sabit olduğundan (simülasyon boyutuna göre değişmez) ), alınması gereken bir sınır yoktur.
whuber

@whuber: Yorumunuz için teşekkür ederim ve kısa yanıtımı tam olarak sizinkiyle yazdığınız için üzgünüm! Açıklamalarınız kesinlikle bootstraptaki acemiler tarafından daha okunabilir. Sınırlayıcı kısmı büyük sayılar yasası olan son cümleyi düzelttim.
Xi'an

3
Bu son cümlede "demek" i kullanman oldukça belirsiz! LLN ipucundan anladım. Bootstrap dağılımının herhangi bir sonlu simülasyonu için, simülasyondaki her örnek kendi ortalamasını üretir ("ortalama" nın bir anlamı vardır). Belirli bir simülasyondaki tüm bu örneklerin ortalaması bir simülasyon ortalaması üretir (başka bir anlamı daha vardır). Simülasyon boyutu, simülasyon boyutu büyüdükçe sabit hale gelir ; bu, bootstrap ortalamasıdır (üçüncü bir anlam) ve bu, örnek ortalamasına (dördüncü anlam) eşittir . (Ve bu nüfus ortalamasını tahmin ediyor - beşinci bir anlam!)
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.