Önyükleme Yeniden Örnekleme bir Veri Kümesinin Varyansı için Güven Aralığını Hesaplamak için Kullanılabilir mi?
Evet, diğer birçok istatistikte olduğu gibi.
Bir veri kümesinden birçok kez yeniden örnekleme yapar ve her seferinde ortalama hesaplarsanız, bu yolların normal bir dağılımı (CLT tarafından) takip edeceğini biliyorum.
Önyükleme yaparsanız, ortalama bir önyükleme aracı, CLT'nin uygulandığı dağıtımlar için bile normal bir dağılımı izleyecektir.
Burada , boyutunda bir örnek için ortalamayı yeniden örneklediğim, 10000 kez yeniden örneklediğim bir örnek :n=100
Uzaktan normal değil.
Orijinal örnek doksan yedi '0' değerinden ve bir '1', '2' ve '100' değerlerinden oluşur.
Yukarıdaki grafiği oluşturmak için koştum (R) kodu İşte:
x <- c(rep(0,97),1,2,100)
y <- replicate(10000,mean(sample(x,replace=TRUE)))
plot(table(y),type="h")
Sorun şu ki, bu durumda numune boyutu (100), CLT'nin bu tür bir dağıtım şekliyle uygulanamayacak kadar küçük olması; kaç kez yeniden örneklediğimiz önemli değil.
Bununla birlikte, orijinal numune boyutu çok daha büyükse, bunun gibi bir şey için numune aracının yeniden örnekleme dağılımı daha normal görünecektir (her zaman ayrık olsa da).
Yukarıdaki verileri (siyah) yeniden örneklerken ve aynı oranlarda ancak on kat daha fazla değer (kırmızı; yani n = 1000) olan değerler için ekdfs:
Gördüğümüz gibi, büyük numuneyi yeniden örneklerken dağıtım işlevi çok daha normal görünüyor.
bir veri kümesinden birçok kez yeniden örneklemem ve her seferinde varyansı hesaplasaydım, bu varyanslar belirli bir dağılımı izler miydi
Hayır, aynı nedenden ötürü ortalama için doğru değildir.
Ancak CLT, varyans * için de geçerlidir; sadece CLT'nin sadece birçok örnek alarak bootstrap yeniden örneklemesi için geçerli olduğunu iddia edemezsiniz. Eğer orijinal numune boyutu yeterince büyükse (varsa, ve daha yüksek momentler), bu eğilimi (uygun koşullar altında), nispeten yakın küçük numunelerde dağıtımına göre olan normal bir dağılıma (üzere aracının yeniden örnekleme dağıtım yapmaya olabilir en az).
* olduğunu düşünüyorsanız genellikle varyans için geçerli olduğunu (uygun anların var olduğu varsayılarak) sezgisel olduğunu . Let ; o zaman , yani CLT - uygulanıyorsa, uygulanabilir . Şimdi sadece ölçekli bir versiyonudur ; CLT için , . Bununla birlikte, bu argümanın ana hatları tamamen sağlam değildir ve ilk başta beklemeyebileceğiniz bazı istisnalar vardır.s2n=1nΣni = 1(xben-x¯)2yben= (xben-x¯)2s2n=y¯ys2ns2n−1s2ns2ns2n−1