Lojistik regresyon ve algılayıcı arasındaki fark nedir?

30

Andrew Ng'un Makine Öğrenimi ile ilgili ders notlarına bakıyorum .

Notlar bize lojistik gerilemeyi ve ardından algılayıcısını tanıtıyor. Perceptron tarif edilirken, notlar sadece lojistik regresyon için kullanılan eşik fonksiyonunun tanımını değiştirdiğimizi söylüyor. Bunu yaptıktan sonra, sınıflandırma için Perceptron modelini kullanabiliriz.

Öyleyse sorum şu - eğer bunun belirtilmesi gerekiyorsa ve Perceptron'u bir sınıflandırma tekniği olarak kabul edersek, tam olarak lojistik regresyon nedir? Sadece sınıflardan birine ait bir veri noktası olasılığını elde etmek için kullanılır mı?

— GrowinMan
kaynak

Güzel soru, özellikle NN'nin anlaşılması çok karmaşık olabileceğinden, NN hakkında açıklamaya nasıl başlamanızın çok önemli olduğunu düşünüyorum. cevabımı düşün.

— prosti

22

Kısacası, lojistik regresyon, ML'deki sınıflandırıcı kullanımının ötesine geçen olasılıksal çağrışımlara sahiptir. Burada lojistik regresyon hakkında bazı notlar var .

Lojistik regresyondaki hipotez, doğrusal bir modele dayalı bir ikili sonuç oluşumunda belirsizlik ölçümü sağlar. Çıktı asimptotik olarak ile arasında sınırlandırılmıştır ve altta yatan regresyon çizgisi değerine sahip olduğunda , lojistik denklemin sağlayacak şekilde doğrusal bir modele bağlıdır. sınıflandırma amaçları için doğal bir kesme noktası. Ancak, olasılıklı bilgiyi , ki bu genellikle ilginçtir (örneğin, kredi borcu geliri, kredi puanı, yaş, vb. $0$ $1$ $0$ $0.5 = \frac{e^0}{1+e^0}$ $h(\Theta^T\bf x) =\frac{e^{\Theta^T \bf x}}{1 +e^{\Theta^T\bf x}}$

Perceptron sınıflandırma algoritması, örnekler ve ağırlıklar arasındaki nokta ürünlere dayanan daha temel bir prosedürdür . Bir örnek yanlış sınıflandırıldığında, nokta ürünün işareti , eğitim setindeki sınıflandırma değeri ( ve ) ile aynıdır. Bunu düzeltmek için, örnek vektör tekrar tekrar eklenecek veya ağırlıklar veya katsayılar vektöründen çıkarılacak ve öğeleri sürekli olarak güncellenecektir: $-1$ $1$

Vektörel olarak, bir örneğin özellikleri veya nitelikleri ve fikir aşağıdaki durumlarda örneği "iletmektir": $d$ $\bf x$

$\displaystyle \sum_{1}^d \theta_i x_i > \text{theshold}$ veya ...

$h(x) = \text{sign}\big(\displaystyle \sum_{1}^d \theta_i x_i - \text{theshold}\big)$ . Lojistik regresyonda ve yerine, burç işlevi veya . $1$ $-1$ $0$ $1$

Eşik yanlılık katsayısına, . Formül şimdi: $+ \theta_0$

$h(x) = \text{sign}\big(\displaystyle \sum_0^d \theta_i x_i\big)$ veya vectorized: . $h(x) = \text{sign}(\theta^T\bf x)$

Sınıflandırılmamış noktalarda olacaktır, bu, negatif olduğunda , ve nokta ürününün pozitif olacağı anlamına gelir (aynı yönde vektörler) , veya nokta ürün negatif olacaktır (zıt yönlerde vektörler), . $\text{sign}(\theta^T\bf x) \neq y_n$ $\Theta$ $\bf x_n$ $y_n$ $y_n$

Bu iki yöntem arasındaki farklılıklar üzerinde aynı kursun veri setindeki farklılıklar üzerinde çalışıyorum ve bu sınavların iki ayrı sınavdaki sonuçları üniversiteye kabul edilme ile ilgili:

Karar sınırlaması lojistik regresyon ile kolayca bulunabilir, ancak algılayıcı ile elde edilen katsayıların lojistik regresyondan çok farklı olmasına rağmen, fonksiyonunun elde edilen sonuçlara basit bir şekilde uygulandığını görmek ilginçti. en az bir sınıflandırma algoritması. Aslında, maksimum doğruluk (bazı örneklerin doğrusal ayrılmazlığı ile belirlenen sınır) ikinci yinelemeyle ulaşıldı. Sınır ötesi çizgilerin dizisi, rastgele katsayı vektöründen başlayarak, ağırlıkların yaklaşık yinelemesine yaklaştığı için: $\text{sign}(\cdot)$ $10$

Sınıflandırmada, yineleme sayısının bir fonksiyonu olarak doğruluk hızla artar ve yukarıdaki video klipte optimal bir karar sınırına ne kadar hızlı ulaşıldığına bağlı olarak yayla tutar. İşte öğrenme eğrisinin grafiği: $90\%$

Kullanılan kod burada .

— Antoni Parellada
kaynak

5

Burada ortaya çıkabilecek bazı karışıklıklar var. Başlangıçta bir algılayıcı, sadece transfer fonksiyonu olarak adım işlevine sahip sinir ağlarına atıfta bulunuyordu. Tabi ki buradaki fark, lojistik regresyonun bir lojistik fonksiyon kullanması ve perceptron'un bir adım fonksiyonu kullanmasıdır. Genel olarak her iki algoritma da aynı karar sınırını vermelidir (en azından tek bir nöron perceptron için). Ancak:

Algılayıcı için parametre vektörü, lojistik regresyon ile türetilene kıyasla keyfi bir şekilde ölçeklendirilebilir. Parametre vektörünün herhangi bir ölçeklendirmesi aynı sınırı tanımlar, ancak lojistik regresyon ile hesaplanan olasılıklar, tam ölçeklendirmeye bağlıdır.
Bir adım fonksiyonundan elde edilen sonuç elbette herhangi bir olasılık olarak yorumlanamaz.
Bir adım fonksiyonu ayırt edilemediğinden, lojistik regresyon için kullanılan algoritmaları kullanarak bir algılayıcı yetiştirmek mümkün değildir.

Bazı durumlarda, algılayıcı terimi, bir aktarma işlevi olarak bir lojistik işlevi kullanan sinir ağlarına atıfta bulunmak için de kullanılır (ancak, bu orijinal terminolojiye uygun değildir). Bu durumda, bir lojistik regresyon ve bir "algılayıcı" tamamen aynıdır. Elbette, bir algılayıcı ile, bir lojistik transfer fonksiyonu kullanılarak çoklu nöronların kullanılması mümkündür; bu, lojistik regresyonun istiflenmesiyle bir şekilde tatminkar hale gelir (aynı değil ama benzer).

— LiKao
kaynak

2

Bir algılayıcı oluşturmak için lojistik regresyon kullanabilirsiniz. Lojistik regresyon, verilen bir girdiden çıktı oluşturmak için lojistik işlevini kullanır. Lojistik fonksiyonu 0 ile 1 arasında yumuşak bir çıktı üretir, bu yüzden onu bir eşik olan bir sınıflandırıcı yapmak için bir şeye daha ihtiyacınız var. Perceptronlar sadece işlevsel değil elbette diğer fonksiyonel biçimlerde de oluşturulabilir .

Lojistik regresyon size şöyle görünen bir model üretiyor: Regresyon bölümü katsayılarının nasıl tahmin , lojistik kısmı fonksiyon biçimidir.

y (x_{1}, x_{2} | b) = \frac{e^{b_{0} + b_{1} x_{1} + b_{2} x_{2}}}{1 + e^{b_{0} + b_{1} x_{1} + b_{2} x_{2}}}

$y(x_1,x_2|b)=\frac{e^{b_0+b_1x_1+b_2x_2}}{1+e^{b_0+b_1x_1+b_2x_2}}$

b_{1}, b_{2}, b_{3}

$b_1,b_2,b_3$

\frac{e^{x}}{1 + e^{x}}

$\frac{e^x}{1+e^x}$

Eğer hesaplamak kez verilen girişler ve parametreler , çıkış nedeni bu 0 veya 1 olup olmadığına karar vermek gerek 0 ile 1 So arasındaki herhangi bir sayıdır, bir eşiği ihtiyaç sana böyle, için ; için . $y(x|b)$ $x$ $b$ $y$ $Y$ $\tilde y=0$ $y(x|b)<Y$ $\tilde y=1$ $y(x|b)\ge Y$

— Aksakal
kaynak

1

İkisi de aynı lojistik dönüşüm modelinin parametrelerini tahmin ederek regresyon uyguluyorlar. Dışbükey fonksiyonların özelliklerine göre, parametrelerin değerleri tahmin etmeyi seçtiğiniz şekilde aynı olacaktır. Kendimi önceki bir cevaptan alıntılamak için:

Lojistik regresyon, bir Bernoulli dağılımının ortalamasının lineer bir denklem olarak işlevini modellemektedir (ortalama, bir Bernoulli olayının olasılığına eşit olmaktır). Logit linkini ortalamanın (p) bir fonksiyonu olarak kullanarak, oranların logaritması (log-odds) analitik olarak türetilebilir ve genelleştirilmiş doğrusal bir modelin cevabı olarak kullanılabilir. Tahmin üzerine, bu, modeli nedensel çıkarımda yorumlayabilmenizi sağlar. Bu, doğrusal bir Perceptron ile elde edemeyeceğiniz bir şey.

Perceptron, wx'in ters logit (lojistik) fonksiyonunu alır ve ne model ne de parametresi için olasılık varsayımları kullanmaz. Çevrimiçi eğitim size model ağırlıkları / parametreleri için tam olarak aynı tahminleri verecektir, ancak p-değerlerinin eksikliği, güven aralıkları ve bunun altında yatan bir olasılık modelinden dolayı bunları nedensel çıkarımda yorumlayamazsınız.

— Digio
kaynak

1

Eğitim gözlemlerimizin, özellik vektörleri olduğunu ve karşılık gelen etiketlerin . Gösterim kolaylığı için, her vektörünün sonuna . Algılayıcı algoritması optimizasyon problemi çözmek için stokastik subgradient inişi kullanılarak olarak yorumlanabilir Optimizasyon değişkeni . Bu perspektiften, $x_1,\ldots, x_N \in \mathbb R^n$ $y_1,\ldots,y_N \in \{-1, 1 \}$ $1$ $x_i$

\begin{aligned} (1) & minimize & \frac{1}{N} \sum_{i = 1}^{N} max (- y_{i} β^{T} x_{i}, 0) . \end{aligned}

$\begin{align} \tag{1}\text{minimize} & \quad \frac{1}{N}\sum_{i=1}^N \max(-y_i\beta^T x_i,0). \end{align}$

β \in R^{n + 1}

$\beta \in \mathbb R^{n+1}$ Perceptron algoritması ile lojistik regresyon arasındaki fark, perceptron algoritmasının farklı bir objektif fonksiyonu en aza indirmesidir . (Maksimum olabilirlik tahmini ile lojistik regresyonun türetilmesi iyi bilinmektedir; bu yazıda algısal algoritmanın yorumlanmasına odaklanıyorum.)

Problem (1) 'deki amaç fonksiyonu , burada Bir subgradient de vektörüdür Her stokastik subgradient iniş dönemi (adım , eğitim gözlemlerini tarar ve gözlem için, güncellemeyi yapar $\frac{1}{N}\sum_i \ell_i(\beta)$

ℓ_{i} (β) = max (- y_{i} β^{T} x_{i}, 0) .

$\ell_i(\beta) = \max(-y_i \beta^T x_i,0).$

ℓ_{i}

$\ell_i$

β

$\beta$

g = {\begin{cases} 0 & if - y_{i} β^{T} x_{i} \leq 0 (so y_{i} and β^{T} x_{i} have the same sign) \\ - y_{i} x_{i} & otherwise. \end{cases}

$g = \begin{cases} 0 & \quad \text{if } -y_i \beta^T x_i \leq 0 \qquad \text{(so $y_i$ and $\beta^T x_i$ have the same sign)}\\ - y_i x_i & \quad \text{otherwise.} \end{cases}$

t > 0)

$t > 0)$

i

$i$

β \leftarrow β - t g = {\begin{cases} β & if y_{i} and β^{T} x_{i} have the same sign \\ β + t y_{i} x_{i} & otherwise. \end{cases}

$\beta \leftarrow \beta - t g = \begin{cases} \beta & \quad \text{if $y_i$ and $\beta^T x_i$ have the same sign} \\ \beta + t y_i x_i & \quad \text{otherwise.} \end{cases}$ Bunun algılayıcı algoritma için yineleme olduğunu biliyoruz (öğrenme hızı ).

t

$t$

— littleO
kaynak

0

Andrew Ng, “lojistik regresyon” terimini ikili sınıflandırma problemini çözmek için bir model olarak kullandı.

Eğer gördüğümüz olabileceğiniz gibi kağıt o aslında modelini kendisi çekmemektedir.

Kovaya birkaç detay ekleyeyim, böylece dersleri nasıl inşa ettiğime dair akıl yürütmeyi bulabilirsiniz.

"Lojistik regresyon" için kullanılan model, özel girdi sayısı ve 0 ile 1 arasında değişen bir çıktı ile tek seviyeli bir algıdır.

90'lı yıllarda en çok takdir edilen aktivasyon fonksiyonu sigmoidal aktivasyon fonksiyonuydu ve yedek olarak harika bir matematik teorisi var.

Bu tam olarak Andrew Ng'in kullandığı modeldir çünkü bu işlev 0 ile 1 arasında değişmektedir.

Ayrıca türev s'(x) = s(x)(1−s(x)), s(x)sigmoidal aktivasyon işlevidir.

Hata işlevi için L2'yi kullanır, ancak bazı belgelerde bunun için başka bir işlev de kullanabilir.

Özetlemek gerekirse, "lojistik regresyon" göz önüne alındığında, sadece sigmoidal aktivasyon fonksiyonu, özel giriş sayısı ve tek çıkış ile tek seviyeli algılamayı düşünün.

Sadece birkaç not: Kayan nokta aritmetiği için ReLU bugünlerde gizli katmanları domine etse de, sigmoidal aktivasyon fonksiyonunda yanlış bir şey yoktur, ancak yakın gelecekte pozitörler (veya bazı diğer aritmetik üniteler) sigmoidal aktivasyon fonksiyonunu tekrar masaya koyabilir. .

Kişisel olarak, bugün daha fazla kullanıldığından SLP'yi (tek seviye algılayıcı) açıklamak için ReLU işleviyle daha basit bir model kullanırdım.

— prosti
kaynak