Miura tarafından verilen cevap tamamen doğru değil, bu yüzden ben bu eski soruya gelecek kuşak için cevap veriyorum:
(2). Bunlar çok farklı şeyler. Ampirik cdf, verileri üreten CDF'nin (dağılım) bir tahminidir. Kesinlikle, gözlenen her veri noktasına olasılık atayan ayrı CDF'dir , , her . Bu tahminci , her bir ( kesinlikle eşit olarak) gerçek : .K ( X ) = 11/nx F (x)→F(x)=P(xi≤x)xF^(x)=1n∑ni=1I(Xi≤x)xF^(x)→F(x)=P(Xi≤x)x
Bir istatistiğin örnekleme dağılımı , bunun yerine tekrarlanan deneyler altında görmeyi beklediğiniz istatistiğin dağılımıdır. Yani, denemenizi bir kez yaparsınız ve verileri toplarsınız . , verilerinizin bir işlevidir: . Şimdi, denemeyi tekrarladığınızı ve verilerini topladığınızı varsayalım . Yeni örnekte T'nin yeniden hesaplanması, . 100 numune toplasaydık, 100 tahminimiz olurdu . Bu gözlemler, örnekleme dağılımı meydanaX 1 , … , X n TTX1,…,XnTXT=T(X1,…,Xn) T′=T(X ′ 1 ,…,X ′ n )TTTE(T)Var(T)X′1,…,X′nT′=T(X′1,…,X′n)TTT. Gerçek bir dağıtımdır. Deney sayısı sonsuzluğa gittikçe, ortalaması ve varyansı birleşir .E(T)Var(T)
Genel olarak böyle deneyleri tekrarlamıyoruz, sadece bir örneği görüyoruz . a priori'nin temel olasılık işlevini bilmiyorsanız, varyansının tek bir gözlemden ne olduğunu bulmak çok zordur . Önyükleme bu örnekleme dağılımını tahmin etmek için bir yöntemdir yapay yeni örneklerini hesaplamak için hangi "yeni deneyler" çalıştırarak . Her yeni örnek aslında orijinal verilerden sadece bir örnektir. Bunun orijinal verilerden daha fazla bilgi sağlaması gizemli ve tamamen harika.T T T TTTTTT
(1). Haklısın - bunu yapmazdın. Yazar, parametrik bootstrap'ı "dağıtımı biliyor olsaydınız ne yapacağınızı" olarak tanımlayarak ama dağıtım fonksiyonunun çok iyi bir tahmincisini (ampirik cdf) değiştirerek tanımlamaya çalışıyor.
Örneğin, test istatistik biliyorum varsayalım normalde ortalaması sıfır, varyansı biri ile dağıtılmaktadır. örnekleme dağılımını nasıl tahmin edersiniz ? Dağılımını bildiğiniz için, örnekleme dağılımını tahmin etmenin aptalca ve gereksiz bir yolu, 10.000 veya daha fazla standart normal rasgele değişken üretmek için R'yi kullanmak, sonra örnek ortalamalarını ve varyanslarını almak ve bunları ortalama ve örnekleme dağılımının değişimi .T TTTT
Biz ise yok önsel parametreleri biliyorum , ama biz normalde dağıtılan biliyoruz, bunun yerine ne yapabileceğini 10.000 veya ampirik cdf alınan numuneler böylece oluşturmak olduğunu hesapla bunların her biri üzerinde, sonra örnek ortalamasını almak ve bu 10.000 varyansı ve bunları beklenen değeri ve varyansının tahminleri olarak kullanın . Ampirik cdf, gerçek cdf'nin iyi bir tahmincisi olduğundan, örnek parametrelerin gerçek parametrelere yakınsamaları gerekir. Bu parametrik bootstrap: tahmin etmek istediğiniz istatistik üzerinde bir model oluşturuyorsunuz. Model, ecdf'den tekrarlanan örneklemeden tahmin ettiğiniz bir parametre, örneğin ile endekslenir.T T T ( μ , σ )TTTT(μ,σ)
(3). Parametrik olmayan bootstrap, normal olarak dağıtıldığı bir önsezi bilmenizi bile gerektirmez . Bunun yerine, ecdf'den tekrarlanan örnekleri çiziyor ve her birinde hesaplıyorsunuz . 10.000 ya da öylesine örnekleri çizilmiş ve 10.000 hesaplanan sonra ler, kendi tahminlerinin histogramı belirleyebiliriz. Bu, örnekleme dağılımının bir görselleştirmesidirT T TTTTT. Parametrik olmayan önyükleme, örnekleme dağılımının normal veya gama vb. Olduğunu söylemez, ancak örnekleme dağılımını (genellikle) gerektiği gibi tahmin etmenizi sağlar. Parametrik önyüklemeden daha az varsayım yapar ve daha az bilgi sağlar. Parametrik varsayım doğru olduğunda daha az kesindir, yanlış olduğunda daha doğrudur. Karşılaştığınız her durumda hangisini kullanacağınız tamamen bağlama bağlıdır. Kuşkusuz, daha fazla insan parametrik olmayan bootstrap'a aşinadır, ancak genellikle zayıf bir parametrik varsayım, tamamen zor bir modeli tahmin etmeye uygun hale getirir, bu da güzeldir.