Önyükleme yöntemi için önerilen örneklem boyutunun belirlenmesi / Önerilen Yöntem

33

Bunun kimsenin gerçekten basit bir cevap veremediği çok sıcak bir konu olduğunu biliyorum. Bununla birlikte, aşağıdaki yaklaşımın faydalı olup olmayacağını merak ediyorum.

Önyükleme yöntemi yalnızca, örneğin orijinal popülasyonla aynı dağılımı en az veya daha az takip ederse (tam olarak okuyun) kullanışlıdır. Emin olmak için bu, örnek büyüklüğünüzü yeterince büyük yapmanız gerekir. Ama yeterince büyük olan nedir?

Benim öncülüm doğruysa, popülasyon ortalamasını belirlemek için merkezi limit teoremini kullanırken aynı problemi yaşarsınız. Yalnızca örneklem boyutunuz yeterince büyük olduğunda, örnekleme araçlarınızın popülasyonunun normal şekilde dağıldığından (nüfus ortalaması civarında) emin olabilirsiniz. Başka bir deyişle, numunelerinizin popülasyonunuzu (dağılım) yeterince iyi temsil etmesi gerekir. Fakat yine de, yeterince büyük olan nedir?

Benim durumumda (idari süreçler: talebi vs talep miktarını karşılamak için gereken zaman) Çok modlu bir dağılıma (2011'de tamamlanan tüm talepler) sahip olduğum bir nüfusum var, bunun% 99 daha az olduğundan eminim normalde nüfustan daha fazla dağınık (geçmişte gün ile bir gün arasında geçen tüm talepler, ideal olarak bu zaman aralığı mümkün olduğu kadar küçüktür) Araştırma yapmak istiyorum.

2011 yılı popülasyonum örneklem büyüklüğünden örnek almak için yeterli birimlerden . değerini seçtim , varsayalım ( ). Şimdi iyi bir örneklem büyüklüğü belirlemek için deneme yanılma kullanıyorum. Bir alıyorum ve ortalama nüfusumun normalde Kolmogorov-Smirnov kullanılarak dağıtılıp dağıtılmadığını görüyorum. Eğer öyleyse, aynı adımları ancak örnek büyüklüğü ile tekrarlayın, örnek büyüklüğü (vb.) İle tekrar etmeyin . $x$ $n$ $x$ $10$ $x=10$ $n=50$ $40$ $60$

Bir süre sonra, 2011 yılı popülasyonumun az çok iyi bir temsilini elde etmek için mutlak asgari örneklem büyüklüğü olduğu sonucuna varıyorum . İlgi popülasyonumun (günümüz ile geçmiş arasında bir gün arasında bitmiş olan tüm taleplerin) daha az değişiklik gösterdiğini bildiğimden, önyükleme yapmak için örneklem büyüklüğünü güvenle kullanabilirim . (Dolaylı olarak, benim zaman aralığımın boyutunu belirler: talebi tamamlamak için gereken zaman .) $n=45$ $n=45$ $n=45$ $45$

$x$ $10$

ilk cevabın cevabı Cevapladığınız için teşekkürler, cevabınız özellikle kitap bağlantılarında bana çok yardımcı oldu.
Ancak, bilgi verme girişimimde sorumu tamamen bulanıklaştırdığımdan korkuyorum. Önyükleme örneklerinin popülasyon örneklerinin dağılımını devraldığını biliyorum. Seni tamamen takip ediyorum ama ...

Asıl nüfus numaranızın, popülasyon numunesinin dağılımının, popülasyonun 'gerçek' dağılımına karşılık geldiğinden (eşit) olduğundan emin olmak için yeterince büyük olması gerekir.

Bu sadece, örnek dağılımının nüfus dağılımına tekabül ettiğinden makul ölçüde emin olmak için orijinal örnek büyüklüğünüzün ne kadar büyük olması gerektiğinin belirlenmesi konusunda bir fikirdir.

Bir çift modlu nüfus dağılımına sahip olduğunuzu ve bir üstünün diğerinden çok daha büyük olduğunu varsayalım. Eğer örnek büyüklüğünüz 5 ise, 5 ünitenin de üste çok yakın bir değere sahip olma şansı büyüktür (reklamın rasgele bir ünite çizme şansı en büyüktür). Bu durumda örnek dağılımınız monomodal görünecektir.

Yüzde bir örneklem büyüklüğü ile, örnek dağılımınızın iki modlu olma şansı da çok daha büyük! Önyükleme ile ilgili sorun, yalnızca bir örneğinizin olması (ve bu örnek üzerinde daha fazla inşa etmenizdir). Örneklem dağılımı gerçekten nüfus dağılımıyla uyuşmuyorsa, başınız derde girer. Bu, sadece örneklem büyüklüğünüzü sınırsız şekilde büyütmek zorunda kalmadan 'kötü bir örnek dağılımını' mümkün olduğu kadar düşük hale getirme şansını sağlamak için bir fikirdir.

bootstrap sample-size methodology

— siegfried
kaynak

38

Bu soruya ilgi duydum çünkü bootstrap kelimesini gördüm ve bootstrap üzerine kitaplar yazdım. Ayrıca insanlar sık sık "Önyükleme sonucuna iyi bir Monte Carlo yaklaşımı elde etmek için kaç önyükleme örneğine ihtiyacım var?" Diye soruyorlar. Bu soruya önerdiğim yanıt, yakınsama elde edene kadar boyutu arttırmaya devam etmektir. Hiçbir sorun tüm sorunlara uymuyor.

$n$ $n$ $n$ Orijinal örnekten. Önyükleme ilkesinin geçerli olup olmadığı herhangi bir "popülasyon temsilcisini arayan" örneğe bağlı değildir. Neye bağlı olduğu, tahmin ettiğiniz şeydir ve nüfus dağılımının bazı özellikleridir (örneğin, bu örnekleme için, sınırsız varyansa sahip olan ancak sınırsız varyansa sahip olmayan popülasyon dağılımları anlamına gelir). Nüfus dağılımına bakılmaksızın aşırılıkları tahmin etmek için çalışmaz.

Önyükleme teorisi, tahminin tutarlılığını göstermeyi içerir. Böylece teoride büyük örnekler için çalıştığı gösterilebilir. Ancak küçük numunelerde de çalışabilir. Özellikle iki değişkenli veriler için 20 gibi küçük örneklem büyüklüklerinde sınıflandırma hata oranı tahmini için işe yaradığını gördüm.

Şimdi eğer örneklem büyüklüğü çok küçükse --- 4 söyleyin --- bootstrap sadece çalışmayabilir, çünkü olası bootstrap örnekleri kümesi yeterince zengin değildir. Kitabımda veya Peter Hall'ın kitabında çok küçük olan bu konu örneklem büyüklüğünü tartışıyor. Ancak bu farklı önyükleme örneği sayısı çok çabuk büyüyor. Dolayısıyla bu, 8 kadar küçük bir numune büyüklüğü için bile sorun değildir. Bu referanslara göz atabilirsiniz:

Kitabım: Bootstrap Yöntemleri: Uygulayıcı ve Araştırmacılar İçin Bir Kılavuz
Salon kitabı: Önyükleme ve Edgeworth Genişlemesi

— Michael R. Chernick
kaynak

3

(4 örnek için) yeterli olup olmadığını kontrol etmek için yapılacak herhangi bir standart test var mı? Ortalama için önyüklenmiş güven aralıkları hesapladığım bir veri kümem var, ancak bazı bireylerde çok az veri noktası var (bazı durumlarda <8). İçgüdülerim, n'den az veri noktasına sahip olmayan bireyleri göz ardı etmem gerektiğini söylüyor, ancak o zaman bu kesimi nasıl tanımlarım? Genel kabul görmüş bir kesme değeri bulmayı umuyordum (karma model analizinde grup başına örnek sayısı için 6 ya da 7'nin keyfi kesme noktası olmasına benzer).

— RTbecard

0

küçük bir örneklem büyüklüğü ile başa çıkabilecek bayes önyükleme örneklemesi. Daha fazla ayrıntı için http://www.sumsar.net/blog/2015/04/the-non-parametric-bootstrap-as-a-bayesian-model/ adresini ziyaret edin.

— Hanan Shteingart
kaynak