İhtiyat oranından farklı üssel lojistik regresyon katsayısı


10

Anladığım kadarıyla, lojistik regresyondaki üssel beta değeri, söz konusu değişkenin ilgili bağımlı değişken için olasılık oranıdır. Ancak, değer manuel olarak hesaplanan olasılık oranıyla eşleşmiyor. Modelim, diğer göstergelerin yanı sıra sigortayı kullanarak bodurluğu (yetersiz beslenmenin bir ölçüsü) tahmin ediyor.

// Odds ratio from LR, being done in stata
logit stunting insurance age ... etc. 
or_insurance = exp(beta_value_insurance)

// Odds ratio, manually calculated
odds_stunted_insured = num_stunted_ins/num_not_stunted_ins
odds_stunted_unins = num_stunted_unins/num_not_stunted_unins
odds_ratio = odds_stunted_ins/odds_stunted_unins

Bu değerlerin farklı olmasının kavramsal nedeni nedir? Regresyondaki diğer faktörleri kontrol etmek? Sadece tutarsızlığı açıklamak istiyorum.


2
Lojistik regresyon modeline ek öngörücüler mi ekliyorsunuz? Manuel olarak hesaplanan olasılık oranı, yalnızca başka hiçbir öngörücü içermezseniz lojistik regresyondan elde ettiğiniz oran oranıyla eşleşir.
Makro

Ben de öyle düşündüm, ama onay istedim. Bunun nedeni, regresyonun sonucunun diğer öngörücülerdeki değişimi açıklamasıdır?
mike

Evet, dostum. Modelin doğru bir şekilde belirtildiği varsayıldığında, diğer öngörücülerin tümü sabitlendiğinde bunu oran oranı olarak yorumlayabilirsiniz.
Makro

@Macro: Yorumunuzu cevap olarak yeniden yazmayı düşünür müsünüz?
jrennie

Yanıtlar:


22

Yalnız bu öngörücüyü modele yerleştiriyorsanız, öngörücü ile yanıt arasındaki oran oranı, üssel regresyon katsayısına tam olarak eşit olacaktır . Sitede bu sonucun türetildiğini sanmıyorum, bu yüzden bunu sağlamak için bu fırsatı değerlendireceğim.


Bir ikili sonuç ve tek ikili öngörücü düşünün :YX

Y=1Y=0X=1p11p10X=0p01p00

Daha sonra, arasındaki oran oranını hesaplamak için bir yol ve olduğuXiYi

OR=p11p00p01p10

Koşullu olasılık tanımı ile . Oranda, olduğu marjinal olasılıklar iptal edilir ve olasılık oranını koşullu olasılıkları açısından yeniden yazabilirsiniz :pij=P(Y=i|X=j)P(X=j)XY|X

OR=P(Y=1|X=1)P(Y=0|X=1)P(Y=0|X=0)P(Y=1|X=0)

Lojistik regresyonda, bu olasılıkları doğrudan modellersiniz:

log(P(Yi=1|Xi)P(Yi=0|Xi))=β0+β1Xi

Böylece bu koşullu olasılıkları doğrudan modelden hesaplayabiliriz. Yukarıdaki ifadesindeki ilk oran :OR

P(Yi=1|Xi=1)P(Yi=0|Xi=1)=(11+e(β0+β1))(e(β0+β1)1+e(β0+β1))=1e(β0+β1)=e(β0+β1)

ve ikincisi:

P(Yi=0|Xi=0)P(Yi=1|Xi=0)=(eβ01+eβ0)(11+eβ0)=eβ0

bunu tekrar formüle .OR=e(β0+β1)eβ0=eβ1

Not: Başka öngörücüleriniz olduğunda, onlara , üstel regresyon katsayısı (benzer bir türev kullanarak) aslındaZ1,...,Zp

P(Y=1|X=1,Z1,...,Zp)P(Y=0|X=1,Z1,...,Zp)P(Y=0|X=0,Z1,...,Zp)P(Y=1|X=0,Z1,...,Zp)

dolayısıyla modeldeki diğer öngörücülerin değerlerine bağlı olan ve genel olarak eşit olmayan oran oranıdır .

P(Y=1|X=1)P(Y=0|X=1)P(Y=0|X=0)P(Y=1|X=0)

Dolayısıyla, katlanan katsayı ile gözlenen olasılık oranı arasında bir tutarsızlık gözlemlemeniz şaşırtıcı değildir.

Not 2: Gerçek ve gerçek olasılık oranı arasında bir ilişki türettim, ancak aynı ilişkinin örnek miktarlar için geçerli olduğunu unutmayın, çünkü tek bir ikili öngörücü ile donatılmış lojistik regresyon tam olarak iki-iki girişini çoğaltacaktır. tablo. Yani, takılan araçlar, herhangi bir GLM'de olduğu gibi numune araçlarıyla tam olarak eşleşir. Dolayısıyla, yukarıda kullanılan tüm mantık, örnek miktarları ile değiştirilen gerçek değerlerle uygulanır. β


2
Vay canına, tam bir açıklama yazmak için zaman ayırdığınız için teşekkürler.
mike

@Macro "p-değeri 0.05'ten küçük" ve "% 95 CI 1 içermiyor" lojistik regresyonda tutarlı olmadığını buldum (SAS kullandım). Bu fenomen açıklamanızla ilgili mi?
user67275

4

@Macro'dan (+1) gerçekten güzel bir cevabınız var, basit (marjinal) oran oranının bir modele referans yapılmadan hesaplandığını ve çoklu lojistik regresyon modelinden ( alınan oran oranının ) genel olarak eşit değildir. Acaba burada hala biraz ilgili bilgilere katkıda bulunup bulunamayacağımı, özellikle ne zaman eşitlenip eşitlenmeyeceklerini açıklayabiliyorum. exp(β)

Lojistik regresyondaki beta değerleri, OLS regresyonunda olduğu gibi , eş değişkente 1 birim değişiklikle ilişkili yanıt dağılımını düzenleyen parametrede ceteris paribus değişikliğini belirtir . (Lojistik regresyon için bu, 'başarı' olasılığının mantığındaki bir değişikliktir, oysa OLS regresyonu için ortalama, .) Yani, diğer her şey eşittir . Üstel betalar benzer şekilde ceteris paribus olasılık oranlarıdır. Dolayısıyla, ilk mesele bunun anlamlı olabileceğinden emin olmaktır. Özellikle, söz konusu eşdeğişken, modelin başka yerlerinde başka terimlerle (örneğin, bir etkileşimde veya polinom teriminde) bulunmamalıdır. (Burada bulunan terimlere atıfta bulunduğumu unutmayınμAncak, gerçek ilişkinin başka bir değişkenin seviyeleri arasında değişmesi, ancak bir etkileşim terimi dahil edilmemesi gibi sorunlar da vardır.) Bir beta sürümünden bir beta sürümü artırarak bir oran oranı hesaplamanın anlamlı olduğunu belirledikten sonra, lojistik regresyon modelinde, model tabanlı ve marjinal olasılık oranlarının ne zaman farklılık göstereceği ve ne zaman tercih etmelisiniz?

Bu OR'lerin farklı olmasının nedeni, modelinize dahil edilen diğer ortak değişkenlerin söz konusu olanla dikey olmamasıdır. Örneğin, ortak değişkenleriniz arasında basit bir korelasyon çalıştırarak kontrol edebilirsiniz (p değerlerinin ne olduğu önemli değildir veya ortak değişkenleriniz sürekli yerine ise, nokta basitçe ). Öte yandan, diğer tüm ortak değişkenleriniz söz konusu olana dik olduğunda, marjinal OR'ye eşit olacaktır. r 0 exp ( β )0/1r0exp(β)

Marjinal OR ve model tabanlı OR farklıysa, model tabanlı sürümü kullanmanız / yorumlamanız gerekir. Bunun nedeni, marjinal OR'nin ortak değişkenleriniz arasındaki karışıklığı açıklamaması, oysa modelin dikkate almasıdır. Bu fenomen, okumak isteyebileceğiniz Simpson's Paradox ile ilgilidir (SEP'nin de iyi bir girişi vardır, burada CV hakkında bir tartışma var: Temel-simpson-paradoks ve CV'nin etiketinde arama yapabilirsiniz ). Basitlik ve pratiklik açısından, sadece model tabanlı OR'yi kullanmak isteyebilirsiniz, çünkü ya açıkça tercih edilebilir ya da aynı olacaktır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.