Ortalamayı tahmin etmek için gerekli örnek sayısının dinamik hesaplanması


9

Örnekleme yoluyla az çok Gauss dağılımının ortalamasını tahmin etmeye çalışıyorum. Ortalaması veya varyansı hakkında önceden bilgim yok. Her numunenin elde edilmesi pahalıdır. Belirli bir düzeyde güven / doğruluk elde etmek için kaç örneğe ihtiyacım olduğunu dinamik olarak nasıl belirlerim? Alternatif olarak, numune almayı ne zaman durdurabileceğimi nasıl bilebilirim?

Bulabildiğim soruların tüm cevapları varyans hakkında biraz bilgi var gibi görünüyor, ama bunu da yol boyunca keşfetmem gerekiyor. Diğerleri anket almaya yöneliktir ve bana nasıl genelleştiği açık değil - ortalamam [0,1], vb.

Bunun muhtemelen iyi bilinen bir yanıtı olan basit bir soru olduğunu düşünüyorum, ancak Google-fu'm beni başarısızlığa uğrattı. Bana ne arayacağımı söylemek bile yardımcı olacaktır.


Bunu CW olarak işaretlemenizin bir nedeni var mı? Soru, tek bir doğru cevaba izin verecek kadar spesifik görünüyor ve bu nedenle CW olmamalıdır.

1
@josh bu iyi. Sadece seçimini merak ettim.

1
Google "uyarlanabilir örnekleme" ve "sıralı örnekleme". Hâlâ takılıp kalıyorsanız, anahtar kelime olarak "Wald" ı ekleyin ve daha sonra tarihsel olarak çalışın (yani, Wald'ın sıralı örnekleme konusundaki çalışmalarına atıfta bulunan makalelere bakın, ardından bunlara referansta bulunan makalelere vb. Bakın).
whuber

1
@Robby McKilliam: Peki hangi verileri kullanıyorsunuz? Bu soru, herhangi bir veri toplanmadan önce ortaya çıkar. Veri kümesine her bir yenisi eklendikten sonra değerleri birer birer toplar ve bir CI hesaplarsanız, yaptığınız ilişkili çoklu karşılaştırmalar nedeniyle aralıklar için standart formülleri kullanamazsınız. Bu nedenle, tahmin edicinizin istatistiksel riskinin toplamını ve her bir ek örneği toplama maliyetini optimize eden bir durdurma kuralına ihtiyacınız vardır .
whuber

1
@whuber teşekkürler! Hala materyali sindiriyorum, ama tam da aradığım şey bu. Bu bir cevap olsaydı, kabul ederdim ...
Josh Bleecher Snyder

Yanıtlar:


2

'Bayes uyarlamalı tasarımları' aramanız gerekir. Basit fikir aşağıdakiler gibidir:

  1. İlgilenilen parametreler için önceliği başlatırsınız.

    Herhangi bir veri toplamadan önce öncelikleriniz dağınık olacaktır. Ek veriler geldikçe, önceliği 'o zamana kadar önceki + verilere' karşılık gelen posterior olacak şekilde yeniden ayarlarsınız.

  2. Veri topla.

  3. Verileri + öncelikleri temel alarak posterior hesaplayın. Ek veri toplarsanız, posterior daha sonra 1. adımda önceki gibi kullanılır.

  4. Durdurma ölçütlerinizin karşılanıp karşılanmadığını değerlendirin

    Durdurma ölçütleri,% 95 güvenilir aralıktan daha büyük olmamalıdır ±ϵilgili parametreler için birimler. İlgilenilen parametrelerle ilişkili daha resmi kayıp fonksiyonlarına sahip olabilir ve ilgilenilen parametrenin posterior dağılımına göre beklenen kaybı hesaplayabilirsiniz.

Ardından, adım 4'teki durma kriterleriniz karşılanana kadar 1, 2 ve 3. adımları tekrarlayın.


0

Normalde en azından 30'un merkezi limit teoremini başlatmasını istersiniz (bu biraz keyfi olsa da). Binom dağılımı kullanılarak modellenen anketlerin vb. Durumundan farklı olarak, önceden bir Gauss işlemi ile doğruluk seviyesini garanti eden bir örneklem büyüklüğü belirleyemezsiniz - bu, standart hatayı belirleyen hangi artıklara sahip olduğunuza bağlıdır.

Güçlü bir örnekleme stratejiniz varsa, zayıf bir stratejiye sahip çok daha büyük bir örneklem boyutundan çok daha doğru sonuçlar elde edebileceğiniz belirtilmelidir.


3
Bilinen (veya varsayılan) bir Gauss dağılımından örnekleme yaparken neden CLT'yi çağırmak gerekir? Bir numunenin bile ortalaması Normal olarak dağıtılacaktır!
whuber

İyi bir nokta! RTQ düzgün değildi.
James
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.