Bernoulli işlemindeki olasılığı 10 hataya kadar örnekleyerek tahmin etme: önyargılı mı?

15

başarısızlıkla karşılaşıncaya kadar örnekleme yaptığımız başarısızlık olasılığı olan bir Bernoulli sürecimiz olduğunu varsayalım (ki bu küçük olacaktır, örneğin ) . Bu suretle olarak başarısızlık olasılığının tahmini burada numune sayısıdır. $q$ $q \leq 0.01$ $10$ $\hat{q}:=10/N$ $N$

Soru : mi bir önyargılı tahmin ait ? Ve eğer öyleyse, düzeltmenin bir yolu var mı? $\hat{q}$ $q$

Son numunenin başarısız olduğu konusunda ısrar etmenin tahmini önyargıya sokması.

estimation bernoulli-distribution

— becky
kaynak

5

Mevcut cevaplar asgari varyans tarafsız tahmin edicisini

sağlamaktan kaçınmaktadır . Bkz negatif binom dağılımına Wikipedia makalesinin örnekleme ve nokta tahmini bölümü .

(10 - 1) / (N - 1)

$(10-1)/(N-1)$

— A. Webb

10

Doğrudur bir önyargılı tahminidir anlamında , ama mutlaka bu sizi caydırmak izin verilmemelidir. Bu kesin senaryo, daima tarafsız tahmin ediciler kullanmamız gerektiği fikrine karşı bir eleştiri olarak kullanılabilir, çünkü burada önyargı, yaptığımız belirli deneyin bir yapaylığıdır. Veriler, örnek sayısını önceden seçmiş olsaydık tam olarak göründükleri gibi, neden çıkarımlarımız değişmeli? $\hat{q}$ $q$ $\text{E}(\hat{q}) \neq q$

İlginç bir şekilde, bu şekilde veri toplayacak ve daha sonra hem binom (sabit örnek boyutu) hem de negatif binom modelleri altında olabilirlik fonksiyonunu yazacak olsaydınız, ikisinin birbiriyle orantılı olduğunu görürdünüz. O Bu araçlar elbette son derece mantıklı bir tahmindir negatif binom modeli altında gayet sıradan maksimum olabilirlik tahmindir. $\hat{q}$

— dsaxton
kaynak

Harika! Görünüşe göre (benim amacım için) bu önyargı bir sorun değil.

— becky

9

Son örneğin tahminin önyargılı olduğu bir başarısızlık olduğu konusunda ısrar etmiyor, karşılığını alıyor $N$

Yani örneğinizde fakat $\mathbb{E}\left[\frac{N}{10}\right] =\frac{1}{q}$ . Bu aritmetik ortalamanın harmonik ortalama ile karşılaştırılmasına yakındır $\mathbb{E}\left[\frac{10}{N}\right] \not = q$

Kötü haber şu ki, küçüldükçe önyargı artabilir , ancak zaten küçük olduğunda çok fazla değil . İyi haber, gerekli hata sayısı arttıkça önyargıların azalmasıdır. Görünüşe göre başarısızlıklarına ihtiyacınız varsa , önyargı yukarıda çarpımsal bir faktörü ile sınırlıdır. $q$ $q$ $f$ küçükiçin ; ilk başarısızlıktan sonra durduğunuzda bu yaklaşımı istemezsiniz $\frac{f}{f-1}$ $q$

başarısızlıktan sonra durmak , ile alırsınız $10$ $q=0.01$ ama $\mathbb{E}\left[\frac{N}{10}\right] = 100$ ,ilealırsınız $\mathbb{E}\left[\frac{10}{N}\right] \approx 0.011097$ $q=0.001$ ama $\mathbb{E}\left[\frac{N}{10}\right] = 1000$ . Kabaca birönyargı $\mathbb{E}\left[\frac{10}{N}\right] \approx 0.001111$ çarpım faktörü $\frac{10}{9}$

— Henry
kaynak

7

Dsaxton cevabı bir tamamlayıcı olarak, burada örnekleme dağılımını gösteren R bazı simülasyonları ve : $\hat{q}$ $k=10$ $q_0 = 0.02$

n_replications <- 10000
k <- 10
failure_prob <- 0.02
n_trials <- k + rnbinom(n_replications, size=k, prob=failure_prob)
all(n_trials >= k)  # Sanity check, cannot have 10 failures in < 10 trials

estimated_failure_probability <- k / n_trials
histogram_breaks <- seq(0, max(estimated_failure_probability) + 0.001, 0.001)
## png("estimated_failure_probability.png")
hist(estimated_failure_probability, breaks=histogram_breaks)
abline(v=failure_prob, col="red", lty=2, lwd=2)  # True failure probability in red
## dev.off()

mean(estimated_failure_probability)  # Around 0.022
sd(estimated_failure_probability)
t.test(x=estimated_failure_probability, mu=failure_prob)  # Interval around [0.0220, 0.0223]

gibi görünüyor değişkenliğe oldukça küçük bir eğilim görecelidir, . $\mathbb{E}\left[ \hat{q}\right] \approx 0.022$ $\hat{q}$

— Adrian
kaynak

1

Bu gerçekten faydalı. Bu seviyede endişelenmeme değmez.

— becky

2

Bu simülasyonu daha kısaca şöyle yazabilirsiniz10+rnbinom(10000,10,0.02)

— A. Webb

@ A.Webb teşekkür ederim, bu iyi bir nokta. Tekerleği gerçekten yeniden keşfediyordum. Okumam gerekiyor? Rnbinom ve sonra yazımı düzenleyeceğim

— Adrian

1

Bu olurdu 10/(10+rnbinom(10000,10,0.02)). Parametreleme, toplam deneme sayısı yerine başarı / başarısızlık sayısı bakımından yapılır, bu nedenle k = 10'u tekrar eklemeniz gerekir. Nötr tahmin edicinin 9/(9+rnbinom(10000,10,0.02))pay ve paydada bir tane daha az olacağını unutmayın.

— A. Webb