Lojistik regresyonda düzeltilmiş oran oranını anlamama yardımcı olun

Bir gazetede lojistik regresyon kullanımını anlamaya çalışırken zorlanıyordum. Burada bulunan makalede katarakt cerrahisi sırasında komplikasyon olasılığını tahmin etmek için lojistik regresyon kullanılmaktadır .

Beni şaşırtan şey, makalenin aşağıdaki gibi tanımlanan taban oranına 1 oran oranını atayan bir model sunmasıdır:

Risk profili tüm risk göstergeleri için referans grubunda olan (yani Tablo 1'de herkes için OR = 1.00 olarak ayarlanmış) bir hastanın 'temel risk profiline' sahip olduğu düşünülebilir ve lojistik regresyon modeli 'temel öngörülen olasılığı' gösterir PCR veya VL veya her ikisi için =% 0.736.

Dolayısıyla, 0.00736 olasılığı 1 oranıyla sunulmaktadır. Olasılıklardan oran oranlarına dönüşüm: $o=\frac{p}{1-p}$ , bu olamaz: $0.00741=\frac{0.00736}{1-0.00736}$ .

Daha da kafa karıştırıcı oluyor. Tahmin edilen riski hesaplamak için taban çizgisinden farklı değerlere sahip birden fazla ortak değişkeni temsil eden kompozit olasılık oranları kullanılır.

... Tablo l'deki bileşik VEYA 1.28 X 1.58 X 2.99 X 2.46 X 1.45 X 1.60 = 34.5 olacaktır ve Şekil 1'deki grafikte, bu OR'nin tahmini bir PCR veya VL olasılığı veya her ikisine karşılık geldiğini görüyoruz. yaklaşık% 20

Kağıdın örnek olarak verdiği değerlere ulaşmanın tek yolu, taban çizgisi olasılığını aşağıdaki gibi kompozit oranlarla : $0.2025=\frac{(34.50\ \times\ 0.00736)}{1\ +\ (34.50\ \times\ 0.00736)}$ .

Peki burada neler oluyor? Oranlar 1'i 0,5 olmayan bir temel olasılığa atamak için mantık nedir? Yukarıda ortaya koyduğum güncelleme formülü, makaledeki örnekler için doğru olasılıklarla geliyor, ancak bu beklediğim olasılık oranının doğrudan çarpımı değil. Öyleyse nedir?

logistic odds-ratio

— mahonya
kaynak

Terminoloji hakkında basit bir karışıklığa sahip olabilirsiniz:

bir oran , oran değil. Bir olasılık oranı, böyle bir ifadenin diğerine bölünmesidir.

p / (1 - p)

$p/(1-p)$

— whuber

Oranlar şansı ifade etmenin bir yoludur. Oran oranları sadece şudur: bir oran diğerine bölünür. Başka bir deyişle, bir oranın bir başka oranı üretmek için çarptığınız oranıdır. Bu ortak durumda nasıl çalıştıklarına bakalım.

Olasılık ve olasılık arasında dönüştürme

İkili yanıtın olasılıkları, yazılan ile kodlanmış gerçekleşme şansının ( ile kodlanmış ), yazılan şansa oranıdır : $Y$ $1$ $\Pr(Y=1)$ $0$ $\Pr(Y=0)$

Odds (Y) = \frac{Pr (Y = 1)}{Pr (Y = 0)} = \frac{Pr (Y = 1)}{1 - Pr (Y = 1)} .

$\text{Odds}(Y) = \frac{\Pr(Y=1)}{\Pr(Y=0)} = \frac{\Pr(Y=1)}{1 - \Pr(Y=1)}.$

Sağdaki eşdeğer ifade , olasılıkları bulmak için modelini yeterli olduğunu gösterir . Tersine, çözebileceğimizi unutmayın $\Pr(Y=1)$

Pr (Y = 1) = \frac{Odds (Y)}{1 + Odds (Y)} = 1 - \frac{1}{1 + Odds (Y)} .

$\Pr(Y=1) = \frac{\text{Odds}(Y)}{1 + \text{Odds}(Y)} = 1 - \frac{1}{1 + \text{Odds}(Y)}.$

Lojistik regresyon

Lojistik regresyon , açıklayıcı değişkenlerin doğrusal bir fonksiyonu olarak olasılıklarının logaritmasını modeller . En genel olarak, bu değişkenleri olarak yazarak ve doğrusal fonksiyonda olası bir sabit terim içeren, katsayıları (verilerden hesaplanacak olan) ve . Resmi olarak bu, modeli üretir $Y$ $x_1, \ldots, x_p$ $\beta_1,\ldots, \beta_p$ $\beta_0$

\log (Odds (Y)) = β_{0} + β_{1} x_{1} + \dots + β_{p} x_{p} .

$\log\left(\text{Odds}(Y)\right) = \beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p.$

Oranlar kendileri logaritmayı geri alarak iyileşebilir:

Odds (Y) = \exp (β_{0} + β_{1} x_{1} + \dots + β_{p} x_{p}) .

$\text{Odds}(Y) = \exp(\beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p).$

Kategorik değişkenleri kullanma

Yaş grubu, cinsiyet, Glokom varlığı vb. Gibi kategorik değişkenler, "kukla kodlama" yoluyla dahil edilir. Değişkenin nasıl kodlandığının önemli olmadığını göstermek için, küçük bir gruba basit bir örnek vereceğim; birden fazla gruba genellemesi açık olmalıdır. Bu çalışmada bir değişken, "Büyük", "Orta" ve "Küçük" olmak üzere üç kategoriden oluşan "öğrenci büyüklüğü" dür. (Çalışma, bunları sadece kategorik olarak ele alır, görünüşte içsel düzenlerine dikkat etmez.) Sezgisel olarak, her kategorinin kendi oranları vardır, örneğin "Büyük" için , "Orta" için ve "Küçük" için . Bu, diğer tüm şeylerin eşit olduğu, $\alpha_L$ $\alpha_M$ $\alpha_S$

Odds (Y) = \exp (α_{L} + β_{0} + β_{1} x_{1} + \dots + β_{p} x_{p})

$\text{Odds}(Y) = \exp(\color{Blue}{\alpha_L + \beta_0} + \beta_1 x_1 + \cdots + \beta_p x_p)$

"Büyük" kategorisindeki herkes için,

Odds (Y) = \exp (α_{M} + β_{0} + β_{1} x_{1} + \dots + β_{p} x_{p})

$\text{Odds}(Y) = \exp(\color{Blue}{\alpha_M + \beta_0} + \beta_1 x_1 + \cdots + \beta_p x_p)$

"Orta" kategorisindeki herkes için ve

Odds (Y) = \exp (α_{S} + β_{0} + β_{1} x_{1} + \dots + β_{p} x_{p})

$\text{Odds}(Y) = \exp(\color{Blue}{\alpha_S + \beta_0} + \beta_1 x_1 + \cdots + \beta_p x_p)$

"Küçük" kategorisinde olanlar için.

Tanımlanabilir katsayılar oluşturma

$\gamma$ $\beta_0$ $\alpha_L$ $\alpha_M$ $\alpha_S$

α_{L} + β_{0} = (α_{L} - γ) + (γ + β_{0}),

$\alpha_L + \beta_0 = (\alpha_L - \gamma) + (\gamma + \beta_0 ),$

vb modeli için herhangi bir sorun bu hediyelerin rağmen - hala tam olarak aynı şeyleri tahmin - parametreler kendileri de yorumlanabilir olmadığını o gösterileri. Bu toplama-çıkarma manevrasını yaptığımızda aynı kalan , katsayılar arasındaki farklardır . Geleneksel olarak, bu tanımlanabilirlik eksikliğini gidermek için , insanlar (ve varsayılan olarak, yazılım) her bir değişkenteki kategorilerden birini "temel" veya "referans" olarak seçer ve katsayısının sıfır olacağını şart koşarlar. Bu, belirsizliği ortadan kaldırır.

$\alpha_L$ $\alpha_L, \alpha_M,$ and $\alpha_S$ , and added to $\beta_0$ to compensate.

The log odds for a hypothetical individual falling into all the base categories therefore equals $\beta_0$ plus a bunch of terms associated with all other "covariates"--the non-categorical variables:

Odds(Base category) = \exp (β_{0} + β_{1} X_{1} + \dots + β_{p} X_{p}) .

$\text{Odds(Base category)} = \exp(\beta_0 + \beta_1X_1 + \cdots + \beta_p X_p).$

No terms associated with any categorical variables appear here. (I have slightly changed the notation at this point: the betas $\beta_i$ now are the coefficients only of the covariates, while the full model includes the alphas $\alpha_j$ for the various categories.)

Comparing odds

Let us compare odds. Suppose a hypothetical individual is a

male patient aged 80–89 with a white cataract, no fundal view, and a small pupil being operated on by a specialist registrar, ...

Associated with this patient (let's call him Charlie) are estimated coefficients for each category: $\alpha_\text{80-89}$ for his age group, $\alpha_\text{male}$ for being male, and so on. Wherever his attribute is the base for its category, the coefficient is zero by convention, as we have seen. Because this is a linear model, the coefficients add. Thus, to the base log odds given above, the log odds for this patient are obtained by adding in

α_{80-89} + α_{male} + α_{no Glaucoma} + \dots + α_{specialist registrar} .

$\alpha_\text{80-89}+\alpha_\text{male}+\alpha_\text{no Glaucoma}+ \cdots + \alpha_\text{specialist registrar}.$

This is precisely the amount by which the log odds of this patient vary from the base. To convert from log odds, undo the logarithm and recall that this turns addition into multiplication. Therefore, the base odds must be multiplied by

\exp (α_{80-89}) \exp (α_{male}) \exp (α_{no Glaucoma}) \dots \exp (α_{specialist registrar}) .

$\exp(\alpha_\text{80-89})\exp(\alpha_\text{male})\exp(\alpha_\text{no Glaucoma}) \cdots \exp(\alpha_\text{specialist registrar}).$

These are the numbers given in the table under "Adjusted OR" (adjusted odds ratio). (It is called "adjusted" because covariates $x_1, \ldots, x_p$ were included in the model. They play no role in any of our calculations, as you will see. It is called a "ratio" because it is precisely the amount by which the base odds must be multiplied to produce the patient's predicted odds: see the first paragraph of this post.) In order in the table, they are $\exp(\alpha_\text{80-89})=1.58$ , $\exp(\alpha_\text{male})=1.28$ , $\exp(\alpha_\text{no Glaucoma})=1.00$ , and so on. According to the article, their product works out to $34.5$ . Therefore

Odds(Charlie) = 34.5 \times Odds(Base) .

$\text{Odds(Charlie)} = 34.5\times \text{Odds(Base)}.$

(Notice that the base categories all have odds ratios of $1.00=\exp(0)$ , because including $1$ in the product leaves it unchanged. That's how you can spot the base categories in the table.)

Restating the results as probabilities

Finally, let us convert this result to probabilities. We were told the baseline predicted probability is $0.736\%=0.00736$ . Therefore, using the formulas relating odds and probabilities derived at the outset, we may compute

Odds(Base) = \frac{0.00736}{1 - 0.00736} = 0.00741.

$\text{Odds(Base)} = \frac{0.00736}{1 - 0.00736} = 0.00741.$

Consequently Charlie's odds are

Odds(Charlie) = 34.5 \times 0.00741 = 0.256.

$\text{Odds(Charlie)} = 34.5\times 0.00741 = 0.256.$

Finally, converting this back to probabilities gives

Pr (Y (Charlie) = 1) = 1 - \frac{1}{1 + 0.256} = 0.204.

$\Pr(Y(\text{Charlie})=1) = 1 - \frac{1}{1 + 0.256} = 0.204.$

— whuber
kaynak

whuber: getting in front of my computer after a very tiring previous day and finding this extraordinary response from you is simply brilliant. You have helped me a lot in a very tight situation. Many thanks. (somehow @ whuber won't show up...)

— mahonya