Logit bağlantısını neden beta regresyonunda kullanmalıyım?


14

Son zamanlarda, bir oran olan bir sonuç için bir beta regresyon modeli uygulamakla ilgileniyorum. Bu sonucun binom bağlamına uymayacağını unutmayın, çünkü bu bağlamda ayrı bir "başarı" için anlamlı bir kavram yoktur. Aslında, sonuç aslında sürelerin bir oranıdır; pay belirli bir koşul aktifken, koşulun aktif olmaya uygun olduğu toplam saniye sayısı boyunca saniye sayısıdır. Vagaryerler için özür dilerim, ancak bu kesin bağlama çok fazla odaklanmak istemiyorum, çünkü beta regresyonunun yanı sıra böyle bir sürecin modellenmesinin çeşitli yolları olduğunu anlıyorum ve şimdilik teorik olarak daha fazla ilgileniyorum Böyle bir modeli uygulama girişimlerimde ortaya çıkan sorular (tabii ki,

Her durumda, bulabildiğim tüm kaynaklar, beta regresyonunun tipik olarak bir logit (veya probit / cloglog) bağlantısı kullanarak ve log-odds'taki değişiklikler olarak yorumlanan parametrelerin uygun olduğunu gösterdi. Ancak, neden bu bağlantıyı kullanmak istediğine dair gerçek bir gerekçe sağlayan bir referans bulmadım.

Orijinal Ferrari ve Cribari-Neto (2004) makalesi bir gerekçe sunmamaktadır; sadece logit fonksiyonunun üslü parametrelerin olasılık oranı yorumlaması nedeniyle "özellikle yararlı" olduğunu not ederler. Diğer kaynaklar (0,1) aralığından gerçek çizgiye eşleme arzusunu ifade eder. Ancak, zaten bir beta dağıtımı varsaydığımız düşünüldüğünde, böyle bir eşleme için mutlaka bir bağlantı fonksiyonuna ihtiyacımız var mı? Bağlantı işlevi, beta dağıtımının başlayacağı varsayılarak getirilen kısıtlamaların üzerinde ve ötesinde ne gibi faydalar sağlar?Birkaç hızlı simülasyon çalıştırdım ve olasılık kütlesi büyük ölçüde 0 veya 1'e yakın olan beta dağılımlarından simüle ederken bile, bir kimlik bağlantısıyla (0,1) aralığının dışında tahmin görmedim, ancak belki de benim simülasyonlarım Bazı patolojileri yakalayacak kadar genel değil.

Bana öyle geliyor ki, bireyler, uygulamada, beta regresyon modellerinden (yani oran oranları olarak) parametre tahminlerini dolaylı olarak bir "başarı" olasılığına ilişkin olarak çıkarımda bulundukları şekilde nasıl yorumladıklarına dayanmaktadır; yani, beta regresyonunu bir binom modelinin yerine kullanıyorlar. Belki de bu, beta ve binom dağılımları arasındaki ilişki göz önüne alındığında, bazı bağlamlarda uygundur, ancak bana göre, bunun genel olandan daha özel bir durum olması gerekir. Gelen bu soruya bir cevap yerine sonucun daha sürekli oranına göre, risk oranı yorumlamak için sağlanan, ancak, diyelim ki, bir günlük kullanımının aksine, denemek ve şeyler bu şekilde yorumlamak gereksiz yere hantal olması bana öyle geliyor veya kimlik bağlantısı ve% değişikliklerin veya birim kaymalarının yorumlanması.

Peki, beta regresyon modelleri için neden logit bağlantısını kullanıyoruz? Basitçe bir kolaylık meselesi olarak, onu binom modelleri ile ilişkilendirmek mi?

Yanıtlar:


8

Link fonksiyonunun gerekçesi: Bir link fonksiyonu takılan tüm değerlerin olan , her zaman içinde . Bu, bazı uygulamalarda o kadar önemli olmayabilir, çünkü tahminler veya sadece örnek içinde değerlendirilir veya 0 veya 1'e çok yakın değildir. Ancak bazı uygulamalarda önemli olabilir ve genellikle önemli olup olmadığını önceden bilmezsiniz. değil. Gördüğüm tipik sorunlar şunları içerir: tahminleri orijinal öğrenme örneği aralığının (biraz) dışında olan yeni değerlerinin değerlendirilmesi veya uygun başlangıç ​​değerlerinin bulunması. İkincisi için düşünün:g(μ):(0,1)R,μ^=g-1(xβ^)(0,1)x

library("betareg")
data("GasolineYield", package = "betareg")
betareg(yield ~ batch + temp, data = GasolineYield, link = make.link("identity"))
## Error in optim(par = start, fn = loglikfun, gr = if (temporary_control$use_gradient) gradfun else NULL,  : 
##   initial value in 'vmmin' is not finite

Ancak, elbette, her iki seçeneği de deneyebilir ve kimlik bağlantısında sorunların olup olmadığını ve / veya modelin uyumunu iyileştirip iyileştirmediğini görebilir.

Parametrelerin yorumlanması : Link fonksiyonlarına sahip modellerde parametreleri yorumlamanın, kimlik bağlantılı modellere göre yorumlamanın daha zor olduğunu ve uygulayıcıların genellikle yanlış anladığını kabul ediyorum. Bununla birlikte, sıklıkla doğrusal olasılık modellerinde (kimlik bağlantılı ikili regresyonlar, tipik olarak en az kareler) parametrelerin yanlış yorumlandığını da gördüm. Tahminler 0 veya 1'e yeterince yaklaşırsa ve bir kişinin gerçekten dikkatli olması gerektiğinde marjinal etkilerin sabit olduğu varsayımı geçerli olamaz. Örneğin, değerinde bir gözlem için , bir artış , örneğin değerinde değerinde bir azalmaya yolμ^=0.01xμ^0.02. Ancak bu, bu senaryolarda genellikle çok terbiyesizce ele alınır. Bu nedenle, sınırlı bir yanıt modeli için herhangi bir bağlantı fonksiyonundan gelen parametrelerin dikkatle yorumlanması ve biraz pratiğe ihtiyacı olabileceğini iddia ediyorum . Bu nedenle her zamanki tavsiyem (sorunuzda bağladığınız diğer tartışmada gösterildiği gibi) ilgili regresör konfigürasyonlarının etkilerine bakmaktır. Bunlar yorumlanması daha kolaydır ve farklı bağlantı işlevleri için genellikle (ama her zaman değil) oldukça benzerdir (pratik açıdan).


10

Lojistik regresyonun sadece ikili sonuç verilerini modellemek için kullanılabilmesi yanlıştır. Lojistik regresyon modeli, 1) sonucun beklenen değerinin, tahmin edicilerin bir fonksiyonu olarak bir lojistik eğri izlediği herhangi bir veri için uygundur 2) sonucun varyansı, beklenen sonuç sürelerinin bir eksi beklenen sonuç (veya bunun bir kısmı) 3) (2'nin sonucu) veriler 0 ile 1 arasında değişmektedir. Bu özellikler kesinlikle Bernoulli verileri için geçerlidir. Ancak, lojistik modeli hemen bilimsel bir soruyu cevaplamak için uygulanabilir (ve uygulanması / açıklaması kolay) bir araç olarak gözden geçirmeden önce bazı keşif istatistikleri ve grafikleri yapılmalıdır.

Lojistik regresyon modeli, genelleştirilmiş doğrusal modelin (GLM) özel bir durumudur, bu da model tarafından tutarlı parametre tahminleri ve çıkarımının verildiği anlamına gelir. Lojistik modeller, literatürdeki çeşitli yerlerde orantıları, sıra değişkenleri, oranları, sınav puanlarını, dereceleri ve ikili olmayan her türlü sonucu modellemek için kullanılır.

Bu yanıtın daha sonra sorunuzu yönlendirmediği için üzgünüz, ancak önceki gerekçeyi belirtmek, değinmeye değer bir yanlış anlama getiriyor.

Birçok R kullanıcısı, lojistik modellere sürekli yanıt verilmesinden kaynaklanan "uyarı" nın bastırılmasını önerdi. Bu arada A "yol ortasında" değişim etmektir family=binomialiçin family=quasibinomial. Bu verileri simüle etme, bir model takma ve doğru çıkarım elde etme örneği burada gösterilmiştir:

set.seed(123)
## logistic non-binary response
x <- rep(c(-2, 0, 2), each=50)
n <- length(x)
b0 <- 0
b1 <- 0.3
yhat <- plogis(b0 + b1*x)

do.one <- function(){
  e <- rnorm(n, 0, yhat*(1-yhat))
  y <- yhat + e

  yfixed <- pmin(y, 1)
  yfixed <- pmax(yfixed, 0)

  est <- glm(yfixed ~ x, family=quasibinomial())
  ci <- confint.default(est, level = 0.9)
  cov0 <- b0 > ci[1,1] & b0 < ci[1,2]
  cov1 <- b1 > ci[2,1] & b1 < ci[2,2]
  c(cov0, cov1)
}

reg <- replicate(10000, do.one())
rowMeans(reg)

CI'lerin% 90'ını doğru bir şekilde kapsar


1
Lojistik regresyon modeli ile ilgili yapılan açıklamaları takdir ediyorum. Bunun genellikle varsayıldığından daha genel bir model olduğu konusunda haklısınız. Bununla birlikte, bunu bir cevap olarak kabul etmekte tereddüt ediyorum, çünkü yeterince muhakeme çizgisini tam olarak geliştirmiyor gibi görünüyor . Bana öyle geliyor ki, bir beta modelindeki logit bağlantısıyla ilgili endişelerim asılsız, çünkü logit bağlantısı ikili olmayan veriler üzerinde iyi çalışıyor. Bu makul bir duruş, ancak logit'i neden bir beta modelinde kullandığımız ve nasıl yorumlanacağı konusundaki sorumun özüne pek de inanmıyorum.
Ryan Simmons

1
@RyanSimmons Geri bildiriminiz için teşekkür ederiz. Burada mantığınıza katılıyorum. Herhangi bir "öğrenme fırsatı" nın bir cevabı gerektirdiğini ve bu nedenle bir sorunun değişen derecelerde "doğruluk" ile birçok olası cevabı olabileceğini düşünüyorum. Sorunuza değinmedim, ki bu iyi bir soru, bu yüzden "savaşçı" cevabı henüz görünebilir. Bunu kendim merak ediyorum, bu yüzden konuyu biraz daha okumaya çalışıyorum.
AdamO
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.