Beta dağılımı ile lojistik regresyon modeli arasındaki ilişki nedir?


16

Sorum şu: Beta dağılımı ile lojistik regresyon modelinin katsayıları arasındaki matematiksel ilişki nedir ?

Örneklemek gerekirse: lojistik (sigmoid) fonksiyonu

f(x)=11+exp(x)

lojistik regresyon modelindeki olasılıkları modellemek için kullanılır. Let A iki seçenekli bir olması (0,1) attı sonuç ve X bir tasarım matrisi. Lojistik regresyon modeli,

P(A=1|X)=f(Xβ).

Not , birinci sabit (kesişme) sütununa sahiptir ve , regresyon katsayılarının bir sütun vektörüdür. Örneğin, bir (standart normal) geri çekici olduğunda ve tercih (kesişme) ve , biz benzetilebilir Elde edilen 'olasılıkların dağıtım'.1 β x β 0 = 1 β 1 = 1X1βxβ0=1β1=1

P histogramı (A = 1 | X)

Bu grafik , yoğunluğu tarafından verilen Beta dağılımını (diğer seçimleri için çizimler gibi) hatırlatır.β

g(y;p,q)=Γ(p)Γ(q)Γ(p+q)y(p1)(1y)(q1).

Maksimum olasılık veya moment yöntemlerini kullanarak , ve P dağılımından tahmin edilmesi mümkündür ( A = 1 | X ) . Böylece sorum şu şekilde ortaya çıkıyor: β ve p ve q seçenekleri arasındaki ilişki nedir? Bu, başlangıçta, yukarıda verilen iki değişkenli davayı desteklemektedir. q'nunpqP(A=1|X)βpq


Bunu 3 saat önce Bayesci istatistik sınıfımda merak ediyordum
Alchemist

Yanıtlar:


16

Beta, aralığındaki, şekli bakımından çok esnek olan değerlerin bir dağılımıdır , bu nedenle ( 0 , 1 ) içindeki değerlerin hemen hemen tüm modimatik ampirik dağılımları için, şekli andıran bu beta dağıtımının parametrelerini kolayca bulabilirsiniz. dağıtım.(0,1)(0,1)

Pr(Y=1X)

Lojistik regresyon modelinden tahmin dağılımına bakıldığında lojistik regresyon parametreleri ile beta dağılım parametreleri arasında doğrudan bir ilişki yoktur. Aşağıda, lojistik fonksiyon kullanılarak dönüştürülmüş normal, üstel ve düzgün dağılımlar kullanılarak simüle edilmiş verileri görebilirsiniz. Tam olarak aynı lojistik regresyon parametrelerini (yani ) kullanmanın yanı sıra , tahmin edilen olasılıkların dağılımları çok farklıdır. Dolayısıyla, tahmin edilen olasılıkların dağılımı sadece lojistik regresyon parametrelerine değil, aynı zamanda dağılımlarına da bağlıdır ve bunlar arasında basit bir ilişki yoktur.β0=0,β1=1X

Normal, üstel ve düzgün dağılımlar altında simüle edilen verilerin lojistik fonksiyonu

Beta deki değerlerin dağılımı olduğu için , ikili verilerin lojistik regresyonda olduğu gibi modellenmesi için kullanılamaz. Olasılıkları modellemek için kullanılabilir , bu şekilde beta regresyonunu kullanırız (ayrıca buraya ve buraya bakın ). Dolayısıyla, olasılıklar (rasgele değişken olarak anlaşılır) davranışı ile ilgileniyorsanız, beta regresyonunu bu amaçla kullanabilirsiniz.(0,1)


Beta böyle bir dağılıma yaklaşabiliyorsa parametreleri ile arasında bir ilişki olmamalı mı? β
tomka

4
@tomka ancak dağıtım verilerinizin ve parametrelerin dağılımına bağlıdır , bu yüzden böyle bir ilişki bile çok karmaşıktır. Açıkça regresyon parametreleri ile beta dağılım parametreleri arasında doğrudan bir ilişki yoktur. X için farklı dağılımlar kullanarak aynı parametreler altında lojistik regresyon tahminlerini simüle etmeyi deneyin , marjinal dağılım her durumda farklı olacaktır. X
Tim

4
Beta dağılımı o kadar esnek değildir - çok modlu dağılımları tahmin edemez.
Marcus PS

@MarcusPS Daha açık bir şekilde ifade ettim.
Tim

1
@MarcusPS, 0 ve 1 modlu çok modlu dağılımlar özel durumu hariç ...
Ben Bolker

4

Lojistik regresyon, Genelleştirilmiş Doğrusal Modelin (GLM) özel bir örneğidir. Bu özel ikili veri durumunda, lojistik işlev eldeki doğrusal olmayan regresyon problemini doğrusal bir probleme dönüştüren kanonik bağlantı fonksiyonudur . GLM'ler, sadece üstel familyadaki (Binom dağılımı gibi) dağılımlar için geçerli oldukları için biraz özeldir.

Bayes kestiriminde Beta dağılımı, binom dağılımından önceki eşleniktir, yani binom gözlemlerinden önceki bir Beta sürümüne yönelik Bayes güncellemesinin Beta posterior ile sonuçlanacağı anlamına gelir. Dolayısıyla, ikili verilerin gözlemleri için sayımlarınız varsa, daha önce bir Beta kullanarak binom dağılımının parametrelerinin analitik bir Bayes tahminini alabilirsiniz.

Yani, başkaları tarafından söylenenler boyunca, doğrudan bir ilişki olduğunu düşünmüyorum, ancak hem Beta dağılımı hem de lojistik regresyon, binom dağılımını takip eden bir şeyin parametrelerini tahmin etmekle yakın ilişkilere sahip.


1
Bayesian perspektifinden bahsettiğim için zaten + 1'ledim, ancak regresyon modeli durumunda beta-binomial model kullanmadığımızı ve genel olarak beta dağılımının parametreler için bir öncü olarak kullanılmadığına dikkat edin - en azından tipik Bayesian lojistik durumunda gerileme . Dolayısıyla bu doğrudan beta-binomial modele dönüşmez.
Tim

3

Belki doğrudan bir bağlantı yoktur? dağılımı büyük ölçüde X simülasyonunuza bağlıdır . Simülasyonu Eğer X ile N ( 0 , 1 ) , exp ( - X β ) ile olacaktır log-normal dağılımı μ = - 1 verilen β 0 = β 1 = 1 . P dağılımı ( A = 1 |P(A=1|X)XXN(0,1)exp(Xβ)μ=1β0=β1=1 daha sonra açıkça bulunabilir: cdf ile F ( x ) = 1 - Φ [ ln ( 1P(A=1|X)ters cdfQ(x)=1

F(x)=1Φ[ln(1x1)+1],
ve pdff(x)=1
Q(x)=11+exp(Φ1(1x)1),
f(x)=1x(1x)2πexp((ln(1/x1)+1)22),
hangi Beta dağılımının benzerlik yoktur.

Yukarıda verilen sonuçları R'de doğrulayabilirsiniz :

n = 100000

X = cbind(rep(1, n), rnorm(n)) # simulate design matrix
Y = 1 / (exp(-X %*% c(1,1)) + 1) # P(A=1|X)

Z1 = 1 / (rlnorm(n, -1, 1) + 1) # simulate from lognormal directly
Z2 = 1 / (1 + exp(qnorm(runif(n)) - 1)) # simulate with inverse CDF

# Kolmogorov–Smirnov test
ks.test(Y, Z1)
ks.test(Y, Z2)

# plot fitted density
new.pdf = function(x) {
  1 / (x * (1 - x) * sqrt(2 * pi)) * exp(-0.5 * (log(1 / x - 1) + 1)^2)
}
hist(Y, breaks = "FD", probability = T)
curve(new.pdf, col = 4, add = T)

resim açıklamasını buraya girin


xf(x)[inf,inf]P(A|X)[0,1]f(x)P(A|X)

1/x1>0x(0,1)f

X

@whuber: Görünüşe göre bir şeyleri yanlış anladım, o kısmı kaldırdım.
Francis
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.