Lojistik regresyon aslında bir regresyon algoritması mıdır?

11

Regresyonun olağan tanımı (bildiğim kadarıyla), belirli bir girdi değişkenleri kümesinden sürekli bir çıktı değişkeni öngörüyor .

Lojistik regresyon ikili bir sınıflandırma algoritmasıdır, dolayısıyla kategorik bir çıktı üretir.

Gerçekten bir regresyon algoritması mı? Öyleyse neden?

algorithms logistic-regression

— joews
kaynak

23

Lojistik regresyon her şeyden önce regresyondur. Bir karar kuralı ekleyerek bir sınıflandırıcı olur. Geriye doğru giden bir örnek vereceğim. Yani, veri almak ve bir model yerleştirmek yerine, bunun gerçekten bir gerileme problemi olduğunu göstermek için modelle başlayacağım.

Lojistik regresyonda, sürekli bir miktar olan bir olayın meydana geldiği log oranlarını veya logit'i modelleyiyoruz. olayının gerçekleşme olasılığı ise, olasılıklar: $A$ $P(A)$

\frac{P (bir)}{1 - P (bir)}

$\frac{P(A)}{1 - P(A)}$

Günlük olasılıkları şöyledir:

günlük (\frac{P (bir)}{1 - P (bir)})

$\log \left( \frac{P(A)}{1 - P(A)}\right)$

Doğrusal regresyonda olduğu gibi, bunu doğrusal bir katsayı ve öngörücü kombinasyonu ile modelliyoruz:

lojit = b_{0} + b_{1} x_{1} + b_{2} x_{2} + \dots

$\operatorname{logit} = b_0 + b_1x_1 + b_2x_2 + \cdots$

Bir kişinin gri saçları olup olmadığına dair bir model verildiğini düşünün. Modelimiz tek öngörücü olarak yaşı kullanır. Burada, olayımız A = bir kişinin gri saçları var:

gri saçların günlük oranları = -10 + 0.25 * yaş

... Regresyon! İşte bazı Python kodu ve bir çizim:

%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

x = np.linspace(0, 100, 100)

def log_odds(x):
    return -10 + .25 * x

plt.plot(x, log_odds(x))
plt.xlabel("age")
plt.ylabel("log odds of gray hair")

Oyuncak örneğimiz için günlük oranlarının grafiği

$P(A)$

P (bir) = \frac{1}{1 + tecrübe (- günlük oranları))}

$P(A) = \frac1{1 + \exp(-\text{log odds}))}$

İşte kod:

plt.plot(x, 1 / (1 + np.exp(-log_odds(x))))
plt.xlabel("age")
plt.ylabel("probability of gray hair")

Oyuncak örneğimiz için gri saç olasılığının grafiği

$P(A) > 0.5$

Lojistik regresyon, daha gerçekçi örneklerde de sınıflandırıcı olarak harika çalışır, ancak bir sınıflandırıcı olmadan önce, bir regresyon tekniği olmalıdır!

— Ben
kaynak

Uygulamada insanlar lojistik regresyonu lojistik regresyon + ikili sınıflandırıcı ile eş anlamlı olarak kullanırlar.

— jinawee

10

Kısa cevap

Evet, lojistik regresyon bir regresyon algoritmasıdır ve sürekli bir sonucu öngörür: bir olayın olasılığı. Bunu ikili bir sınıflandırıcı olarak kullandığımız sonucun yorumlanmasından kaynaklanmaktadır.

detay

Lojistik regresyon bir tür genelleştirilmiş doğrusal regresyon modelidir.

Sıradan bir doğrusal regresyon modelinde, sürekli bir sonuç, yöngörücülerin ürünü ve etkilerinin toplamı olarak modellenir:

y = b_0 + b_1 * x_1 + b_2 * x_2 + ... b_n * x_n + e

ehata nerede .

Genelleştirilmiş doğrusal modeller ydoğrudan modellemez . Bunun yerine, alan adını ytüm gerçek sayılara genişletmek için dönüşümleri kullanırlar . Bu dönüşüme link fonksiyonu denir. Lojistik regresyon için link fonksiyonu logit fonksiyonudur (genellikle aşağıdaki nota bakınız).

Logit işlevi şu şekilde tanımlanır:

ln(y/(1 + y))

Dolayısıyla lojistik regresyon şekli:

ln(y/(1 + y)) = b_0 + b_1 * x_1 + b_2 * x_2 + ... b_n * x_n + e

ybir olayın olasılığı nerede .

Bunu ikili bir sınıflandırıcı olarak kullanmamız, sonucun yorumlanmasından kaynaklanmaktadır.

Not: probit, lojistik regresyon için kullanılan başka bir bağlantı fonksiyonudur, ancak logit en yaygın kullanılanıdır.

— Christopher Louden
kaynak

1

Tartışırken regresyonun tanımı sürekli bir değişkeni öngörüyor. Lojistik regresyon ikili bir sınıflandırıcıdır. Lojistik regresyon, olağan regresyon yaklaşımının çıktısına bir logit fonksiyonunun uygulanmasıdır. Logit işlevi (-inf, + inf) değerini [0,1] olarak değiştirir. Bence sadece tarihi nedenlerden dolayı bu isim saklanıyor.

"Görüntüleri sınıflandırmak için biraz gerileme yaptım. Özellikle lojistik regresyon kullandım." Hata.

— iliasfl
kaynak

2

Lojistik regresyon ikili bir sınıflandırıcı olarak kullanılabilir, ancak doğal olarak bir değildir. Oranları tahmin etmek veya bir öngörücü değişkenin sonuçla ilişkisini belirlemek için kullanabilirsiniz.

— MattBagg

0

$f$ $f:X\rightarrow \mathbb{R}$ $P(Y=1|\lambda, x)=\dfrac{1}{1+e^{-\lambda^Tx}} \in [0,1]$ $\lambda$ $x$ $sign(P(Y=1|\lambda, x))$

— Bay Sigma.
kaynak