Binom ayarı altında gelecekteki başarı oranı için tahmin aralığı

Bir Binom regresyonuna uyduğumu ve regresyon katsayılarının nokta tahminlerini ve varyans-kovaryans matrisini elde ettiğimi varsayalım. Bu, gelecekteki bir deneyde beklenen başarı oranı için bir CI almamı sağlayacak, , ancak gözlemlenen oran için bir CI'ye ihtiyacım var. Simülasyon (bunu yapmak istemediğimi varsayalım) ve Krishnamoorthya ve arkadaşlarına (sorumu tam olarak cevaplamayan) bir bağlantı da dahil olmak üzere birkaç ilgili cevap yayınlanmıştır. $p$

Akıl yürütmem şu şekildedir: Sadece Binom modelini kullanırsak, Normal dağılımdan (karşılık gelen Wald CI ile) örneklendiğini varsaymak zorunda kalırız ve bu nedenle kapalı formda gözlenen oran için CI elde etmek imkansızdır. beta dağılımından örneklendiğini varsayarsak, işler çok daha kolaydır çünkü başarı sayısı Beta-Binom dağılımını takip edecektir. Tahmin edilen beta parametrelerinde ve arasında bir belirsizlik olmadığını varsaymamız gerekecek . $p$ $p$ $\alpha$ $\beta$

Üç soru var:

1) Teorik olan: beta parametrelerinin sadece nokta tahminlerini kullanmak uygun mudur? Çoklu lineer regresyonda gelecekteki gözlem için bir CI inşa etmeyi biliyorum

$Y = x'\beta + \epsilon, \epsilon \sim N(0, \sigma^2)$

bunu wrt hata terimi varyansı, yaparlar . Gerekçelendirme (yanlışsam beni düzelt), uygulamada regresyon katsayılarından çok daha büyük bir hassasiyetle tahmin edilmesidir ve belirsizliğini dahil etmeye çalışarak çok fazla kazanmayacağız. . Benzer bir gerekçe tahmini beta parametreleri, ve mi? $\sigma^2$ $\sigma^2$ $\sigma^2$ $\alpha$ $\beta$

2) Hangi paket daha iyidir (R: gamlss-bb, betareg, aod?; SAS'a da erişimim var).

3) Tahmini beta parametreleri göz önüne alındığında, gelecekteki başarıların sayısı veya daha iyisi Beta-Binom dağılımı altındaki gelecekteki başarıların oranı için miktarları (% 2.5,% 97.5) elde etmek için (yaklaşık) bir kısayol var.

— James
kaynak

Birinci soruda, evet bu insanların yaptığı geçerli bir şeydir, buna Ampirik Bayes denir: en.wikipedia.org/wiki/Empirical_Bayes_method

— Paul

Bir model parametresini tahmin etmek için XYZ yöntemini kullanmanın, gelecekteki bir gözlem için bir CI üretirken tahmin belirsizliğini göz ardı etmenin uygun olduğunu otomatik olarak ima edebileceğini düşünmüyorum. Örneğin, çoklu doğrusal regresyonda EB yerine OLS kullanırlar ve belirsizlik de göz ardı edilir. Neden? Ayrıca, bu Wiki makalesi, EB'de üst düzey hiperparametrelerin tahmininin kesinliğinin genellikle pratik amaçlar için sabit olduğunu düşünmenin çok daha yüksek olduğunu iddia etmez.

σ

$\sigma$

— James

“Gerçek dağıtım keskin bir şekilde doruğa ulaştığında, integrali belirleyen integral üzerindeki olasılık dağılımını temsil eden bir nokta tahmini ile değiştirerek çok fazla değişmeyebilir dağıtımın zirvesi ”. Sizin durumunuzda bunun doğru olup olmadığı sorun alanınızın özelliklerine bağlıdır.

p (η ∣ y)

$p(\eta \mid y)$

p (θ ∣ y)

$p(\theta \mid y)$

η

$\eta$

η^{*}

$\eta^*$

— Paul

İyi soru! Bir pivot alamazsınız, ama profil olasılığını kullanmaya ne dersiniz? Bkz . Kestirimci çıkarım için hangi Bayesci olmayan yöntemler vardır? .

— Scortchi - Eski durumuna getir Monica

Soruya 3 bölümün hepsini ele alacağım.

İki karmaşık sorun vardır, birincisi, bu durumda bir regresyon modeline uymak için kullandığınız yöntemdir. İkincisi, yeni bir tahminde bulunmak için tahminlerinizden tahminlerin nasıl aralıklandırılacağıdır.

yanıt değişkenleriniz Binom olarak dağıtılmışsa, tipik olarak bir lojistik regresyon veya bir probit regresyon (bağlantı fonksiyonu olarak normal cdf ile glm) kullanırsınız.

Lojistik bir regresyon yaparsanız, yanıtın gözlenen sayımların bilinen üst sınıra bölünmesi yani $y_i/n_i$ . Ardından, öngörücülerinizi / ortak değişkenlerinizi alın ve bunları glm işlevine yönelik R çağrınıza koyun. Döndürülen nesne, hesaplamalarınızın geri kalanını yapmak için ihtiyacınız olan her şeye sahiptir.

x<- rnorm(100, sd=2)
prob_true <- 1/(1+exp(-(1+5*x)))
counts <- rbinom(100, 50,prob_true)
print(d.AD <- data.frame(counts,x))
glm.D93 <- glm(counts/50 ~ x, family = binomial() )

Bir için lineer bir tahmin aralığıdır için regresyon formül modeli:

$\hat{y}_i \pm t_{n-p}s_y\sqrt{1+\frac{1}{n}+\frac{(x_i-\bar{x})^2}{(n-1)s^2_x}}$

Glm için bir yaklaşım olarak doğrusal regresyon modelini kullanabilirsiniz. Bunu yapmak için , ters bağlantı dönüşümünü yapmadan önce 0-1 ölçeğinde olasılıkları elde etmek için lineer regresyon formülünün doğrusal regresyon formülünü kullanırsınız . Bunu yapmak için kullanılan kod predict.glm () R fonksiyonuna dönüştürülür. İşte güzel bir komplo oluşturacak bazı örnek kod. ( EDIT : Bu kod, tahmin aralığı için değil, güven aralığı içindir)

y_hat <- predict(glm.D93, type="link", se.fit=TRUE)
t_np<- qt(.975, 100-2, ncp=0)

ub <- y_hat$fit + t_np * y_hat$se.fit
lb <- y_hat$fit - t_np * y_hat$se.fit

point <- y_hat$fit

p_hat <- glm.D93$family$linkinv(point)
p_hat_lb <- glm.D93$family$linkinv(lb)
p_hat_ub <- glm.D93$family$linkinv(ub)

plot(x,p_hat)
points(x, p_hat_ub, col='red')
points(x, p_hat_lb, col='blue')

Aynı şeyi herhangi bir glm için de yapabilirsiniz, örneğin Poisson, ters Gauss, gama, vb. Tahmin aralığının iki uç noktasını aldıktan sonra, bu uç noktaları ters bağlantı üzerinden dönüştürürsünüz. Bahsettiğim her bir glm için ters bağlantı, burada yazdığım logit durumundan farklı olabilir. Bu yardımcı olur umarım.

— Lucas Roberts
kaynak