Önyükleme örnekleme dağılımının büyük örnek teorisi tarafından varsayıldığından daha sağlam bir resmini elde etmek için yapılır . Önyükleme yaptığınızda, aldığınız `` çizme örneği '' sayısının etkili bir şekilde sınırı yoktur; Aslında örnekleme dağılımına daha fazla çizme alırsınız. Bu sayı hakkında büyülü bir şey olmamasına rağmen, bot örneği kullanmak yaygındır . Ayrıca, çizme örnekleri üzerinde bir test yapmazsınız; örnekleme dağılımı hakkında bir tahmininiz var - doğrudan kullanın. İşte bir algoritma:B = 10 , 000
- önyükleme gözlemlerini değiştirerek örnekleyerek bir veri kümesinin önyüklemesini alın. [Aşağıdaki yorumlarla ilgili olarak, ilgili bir soru, bot örneğiniz için kullanılacak geçerli bir “önyükleme gözlemi” oluşturan şeydir. Aslında, birkaç meşru yaklaşım vardır; Sağlam olan ve verilerinizin yapısını yansıtmanıza izin veren iki durumdan bahsedeceğim: Gözlemsel verileriniz varsa (yani, tüm boyutlarda veriler örneklendiğinde, bir önyükleme gözlemi sıralı bir n-demet olabilir (örneğin, bir satır) Örneğin, bir değişkeniniz ve bir yanıt değişkeniniz varsa,n1n1 ( x , y)sıralı çiftler. Öte yandan, deneysel verilerle çalışırken, tahmin değişkeni değerleri örneklenmemiştir, ancak deney birimleri her tahmin değişkeni değişkeninin amaçlanan seviyelerine atanmıştır. Böyle bir durumda , tahmin değişkeninizin seviyelerinin her birinden değerlerini örnekleyebilir , ardından bu bu tahmin seviyesinin karşılık gelen değeri ile eşleştirebilirsiniz . Bu şekilde, üzerinde örnekleme .]n1j yjyX
- regresyon modelinize ve eğim tahminini saklayın (buna )β^1
- önyükleme gözlemlerini değiştirerek örnekleyerek diğer veri kümesinin önyüklemesini alınn2
- diğer regresyon modeline ve eğim tahminini saklayın (buna )β^2
- iki tahminden bir istatistik oluşturun (öneri: eğim farkını kullanın )β^1−β^2
- istatistiği sakla ve hafızayı boşa harcamamak için diğer bilgileri dök
- 1-6, kez tekrarlayınB=10,000
- eğim farklılıklarının önyüklemeli örnekleme dağılımını sıralayabilir
- 0 ile çakışan bsd'nin yüzdesini hesaplayın (hangisi daha küçükse, sağ kuyruk% veya sol kuyruk%)
- bu yüzdeyi 2 ile çarp
İstatistiksel bir test olarak bu algoritmanın mantığı temel olarak klasik testlere (örneğin, t-testleri) benzer, ancak verilerin veya sonuçta elde edilen örnekleme dağılımlarının belirli bir dağılımı olduğunu varsaymıyorsunuz. (Örneğin, normalliği kabul etmiyorsunuz.) Yaptığınız birincil varsayım, verilerinizin örneklediğiniz / genellemek istediğiniz popülasyonu temsil etmesidir. Yani, numune dağılımı nüfus dağılımına benzer. Verileriniz ilgilendiğiniz nüfusla ilgili değilse, şanssızsınız demektir.
Bazı insanlar, normalliği kabul etmek istemiyorsanız eğimi belirlemek için bir regresyon modeli kullanmaktan endişe duyarlar. Ancak, bu endişe yanlıştır. Gauss-Markov teoremi bize tahminin tarafsız olduğunu (yani gerçek değere odaklandığını) söyler, bu yüzden iyidir. Normallik eksikliği, basitçe gerçek örnekleme dağılımının teorik olarak ortaya konandan farklı olabileceği anlamına gelir ve bu nedenle p-değerleri geçersizdir. Önyükleme prosedürü size bu sorunla başa çıkmanın bir yolunu sunar.
Önyükleme ile ilgili diğer iki sorun: Klasik varsayımlar karşılanırsa, önyükleme parametrik bir testten daha az verimlidir (yani, daha az güce sahiptir). İkincisi, bir dağıtım merkezinin yakınında keşfederken önyükleme en iyi şekilde çalışır: araçlar ve medyanlar iyi, çeyrekler çok iyi değil, min. Veya maks. İlk nokta ile ilgili olarak, durumunuzda önyükleme yapmanız gerekmeyebilir; ikinci nokta ile ilgili olarak, eğimin önyüklenmesi mükemmel derecede iyidir.