Bunun kimsenin gerçekten basit bir cevap veremediği çok sıcak bir konu olduğunu biliyorum. Bununla birlikte, aşağıdaki yaklaşımın faydalı olup olmayacağını merak ediyorum.
Önyükleme yöntemi yalnızca, örneğin orijinal popülasyonla aynı dağılımı en az veya daha az takip ederse (tam olarak okuyun) kullanışlıdır. Emin olmak için bu, örnek büyüklüğünüzü yeterince büyük yapmanız gerekir. Ama yeterince büyük olan nedir?
Benim öncülüm doğruysa, popülasyon ortalamasını belirlemek için merkezi limit teoremini kullanırken aynı problemi yaşarsınız. Yalnızca örneklem boyutunuz yeterince büyük olduğunda, örnekleme araçlarınızın popülasyonunun normal şekilde dağıldığından (nüfus ortalaması civarında) emin olabilirsiniz. Başka bir deyişle, numunelerinizin popülasyonunuzu (dağılım) yeterince iyi temsil etmesi gerekir. Fakat yine de, yeterince büyük olan nedir?
Benim durumumda (idari süreçler: talebi vs talep miktarını karşılamak için gereken zaman) Çok modlu bir dağılıma (2011'de tamamlanan tüm talepler) sahip olduğum bir nüfusum var, bunun% 99 daha az olduğundan eminim normalde nüfustan daha fazla dağınık (geçmişte gün ile bir gün arasında geçen tüm talepler, ideal olarak bu zaman aralığı mümkün olduğu kadar küçüktür) Araştırma yapmak istiyorum.
2011 yılı popülasyonum n örneklem büyüklüğünden örnek almak için yeterli birimlerden yoksundur . X değerini seçtim , varsayalım 10 ( x = 10 ). Şimdi iyi bir örneklem büyüklüğü belirlemek için deneme yanılma kullanıyorum. Bir n = 50 alıyorum ve ortalama nüfusumun normalde Kolmogorov-Smirnov kullanılarak dağıtılıp dağıtılmadığını görüyorum. Eğer öyleyse, aynı adımları ancak örnek büyüklüğü 40 ile tekrarlayın, örnek büyüklüğü 60 (vb.) İle tekrar etmeyin .
Bir süre sonra, 2011 yılı popülasyonumun az çok iyi bir temsilini elde etmek için mutlak asgari örneklem büyüklüğü olduğu sonucuna varıyorum . İlgi popülasyonumun (günümüz ile geçmiş arasında bir gün arasında bitmiş olan tüm taleplerin) daha az değişiklik gösterdiğini bildiğimden, önyükleme yapmak için n = 45 örneklem büyüklüğünü güvenle kullanabilirim . (Dolaylı olarak, n = 45 benim zaman aralığımın boyutunu belirler: 45 talebi tamamlamak için gereken zaman .)
ilk cevabın cevabı Cevapladığınız için teşekkürler, cevabınız özellikle kitap bağlantılarında bana çok yardımcı oldu.
Ancak, bilgi verme girişimimde sorumu tamamen bulanıklaştırdığımdan korkuyorum. Önyükleme örneklerinin popülasyon örneklerinin dağılımını devraldığını biliyorum. Seni tamamen takip ediyorum ama ...
Asıl nüfus numaranızın, popülasyon numunesinin dağılımının, popülasyonun 'gerçek' dağılımına karşılık geldiğinden (eşit) olduğundan emin olmak için yeterince büyük olması gerekir.
Bu sadece, örnek dağılımının nüfus dağılımına tekabül ettiğinden makul ölçüde emin olmak için orijinal örnek büyüklüğünüzün ne kadar büyük olması gerektiğinin belirlenmesi konusunda bir fikirdir.
Bir çift modlu nüfus dağılımına sahip olduğunuzu ve bir üstünün diğerinden çok daha büyük olduğunu varsayalım. Eğer örnek büyüklüğünüz 5 ise, 5 ünitenin de üste çok yakın bir değere sahip olma şansı büyüktür (reklamın rasgele bir ünite çizme şansı en büyüktür). Bu durumda örnek dağılımınız monomodal görünecektir.
Yüzde bir örneklem büyüklüğü ile, örnek dağılımınızın iki modlu olma şansı da çok daha büyük! Önyükleme ile ilgili sorun, yalnızca bir örneğinizin olması (ve bu örnek üzerinde daha fazla inşa etmenizdir). Örneklem dağılımı gerçekten nüfus dağılımıyla uyuşmuyorsa, başınız derde girer. Bu, sadece örneklem büyüklüğünüzü sınırsız şekilde büyütmek zorunda kalmadan 'kötü bir örnek dağılımını' mümkün olduğu kadar düşük hale getirme şansını sağlamak için bir fikirdir.