Lojistik Regresyondan maliyet fonksiyonu nasıl türetilir?

29

Coursera'da Machine Learning Stanford kursunu yapıyorum.

Lojistik Regresyon bölümünde, maliyet fonksiyonu şudur:

Sonra burada türetilir:

Maliyet fonksiyonunun türevini almaya çalıştım ama tamamen farklı bir şey aldım.

Türev nasıl elde edilir?

Aracı adımlar nelerdir?

— octavian
kaynak

+1, buradaki sorumu @ AdamO'nun cevabına bakın stats.stackexchange.com/questions/229014/…

— Haitao Du

"Tamamen farklı" aslında ne bildiğinizi (doğru degrade) söylemenin yanı sıra sorunuzu yanıtlamak için yeterli değildir. Hesaplamaların neyle sonuçlandığını bize bildirirseniz, çok daha faydalı olur, o zaman hata yaptığınız yerde yukarı çıkmanıza yardımcı olabiliriz.

— Matthew Drury

@MatthewDrury Üzgünüm Matt, yorumunuz gelmeden hemen önce cevabı ayarlamıştım. Octavian, tüm adımları takip ettiniz mi? Sonradan bir katma değer verecek şekilde düzenleyeceğim ...

— Antoni Parellada

2

"türetilmiş" derken "farklılaştırılmış" veya "türetilmiş" anlamına mı geliyorsunuz?

— Glen_b -Reinstate Monica

41

Andrew Ng's Coursera Machine Learning kursu sayfasındaki öğrencilerin kattığı notların dışında (bu türev dahil) mevcut görmediğim ders notlarından uyarlanmıştır .

Aşağıda, üst simge bireysel ölçümleri veya "örnekleri" eğitimi gösterir. $(i)$

$\small \frac{\partial J(\theta)}{\partial \theta_j} = \frac{\partial}{\partial \theta_j} \,\frac{-1}{m}\sum_{i=1}^m \left[ y^{(i)}\log\left(h_\theta \left(x^{(i)}\right)\right) + (1 -y^{(i)})\log\left(1-h_\theta \left(x^{(i)}\right)\right)\right] \\[2ex]\small\underset{\text{linearity}}= \,\frac{-1}{m}\,\sum_{i=1}^m \left[ y^{(i)}\frac{\partial}{\partial \theta_j}\log\left(h_\theta \left(x^{(i)}\right)\right) + (1 -y^{(i)})\frac{\partial}{\partial \theta_j}\log\left(1-h_\theta \left(x^{(i)}\right)\right) \right] \\[2ex]\Tiny\underset{\text{chain rule}}= \,\frac{-1}{m}\,\sum_{i=1}^m \left[ y^{(i)}\frac{\frac{\partial}{\partial \theta_j}h_\theta \left(x^{(i)}\right)}{h_\theta\left(x^{(i)}\right)} + (1 -y^{(i)})\frac{\frac{\partial}{\partial \theta_j}\left(1-h_\theta \left(x^{(i)}\right)\right)}{1-h_\theta\left(x^{(i)}\right)} \right] \\[2ex]\small\underset{h_\theta(x)=\sigma\left(\theta^\top x\right)}=\,\frac{-1}{m}\,\sum_{i=1}^m \left[ y^{(i)}\frac{\frac{\partial}{\partial \theta_j}\sigma\left(\theta^\top x^{(i)}\right)}{h_\theta\left(x^{(i)}\right)} + (1 -y^{(i)})\frac{\frac{\partial}{\partial \theta_j}\left(1-\sigma\left(\theta^\top x^{(i)}\right)\right)}{1-h_\theta\left(x^{(i)}\right)} \right] \\[2ex]\Tiny\underset{\sigma'}=\frac{-1}{m}\,\sum_{i=1}^m \left[ y^{(i)}\, \frac{\sigma\left(\theta^\top x^{(i)}\right)\left(1-\sigma\left(\theta^\top x^{(i)}\right)\right)\frac{\partial}{\partial \theta_j}\left(\theta^\top x^{(i)}\right)}{h_\theta\left(x^{(i)}\right)} - (1 -y^{(i)})\,\frac{\sigma\left(\theta^\top x^{(i)}\right)\left(1-\sigma\left(\theta^\top x^{(i)}\right)\right)\frac{\partial}{\partial \theta_j}\left(\theta^\top x^{(i)}\right)}{1-h_\theta\left(x^{(i)}\right)} \right] \\[2ex]\small\underset{\sigma\left(\theta^\top x\right)=h_\theta(x)}= \,\frac{-1}{m}\,\sum_{i=1}^m \left[ y^{(i)}\frac{h_\theta\left( x^{(i)}\right)\left(1-h_\theta\left( x^{(i)}\right)\right)\frac{\partial}{\partial \theta_j}\left(\theta^\top x^{(i)}\right)}{h_\theta\left(x^{(i)}\right)} - (1 -y^{(i)})\frac{h_\theta\left( x^{(i)}\right)\left(1-h_\theta\left(x^{(i)}\right)\right)\frac{\partial}{\partial \theta_j}\left( \theta^\top x^{(i)}\right)}{1-h_\theta\left(x^{(i)}\right)} \right] \\[2ex]\small\underset{\frac{\partial}{\partial \theta_j}\left(\theta^\top x^{(i)}\right)=x_j^{(i)}}=\,\frac{-1}{m}\,\sum_{i=1}^m \left[y^{(i)}\left(1-h_\theta\left(x^{(i)}\right)\right)x_j^{(i)}- \left(1-y^{i}\right)\,h_\theta\left(x^{(i)}\right)x_j^{(i)} \right] \\[2ex]\small\underset{\text{distribute}}=\,\frac{-1}{m}\,\sum_{i=1}^m \left[y^{i}-y^{i}h_\theta\left(x^{(i)}\right)- h_\theta\left(x^{(i)}\right)+y^{(i)}h_\theta\left(x^{(i)}\right) \right]\,x_j^{(i)} \\[2ex]\small\underset{\text{cancel}}=\,\frac{-1}{m}\,\sum_{i=1}^m \left[y^{(i)}-h_\theta\left(x^{(i)}\right)\right]\,x_j^{(i)} \\[2ex]\small=\frac{1}{m}\sum_{i=1}^m\left[h_\theta\left(x^{(i)}\right)-y^{(i)}\right]\,x_j^{(i)}$

Sigmoid fonksiyonunun türevi

$\Tiny\begin{align}\frac{d}{dx}\sigma(x)&=\frac{d}{dx}\left(\frac{1}{1+e^{-x}}\right)\\[2ex] &=\frac{-(1+e^{-x})'}{(1+e^{-x})^2}\\[2ex] &=\frac{e^{-x}}{(1+e^{-x})^2}\\[2ex] &=\left(\frac{1}{1+e^{-x}}\right)\left(\frac{e^{-x}}{1+e^{-x}}\right)\\[2ex] &=\left(\frac{1}{1+e^{-x}}\right)\,\left(\frac{1+e^{-x}}{1+e^{-x}}-\frac{1}{1+e^{-x}}\right)\\[2ex] &=\sigma(x)\,\left(\frac{1+e^{-x}}{1+e^{-x}}-\sigma(x)\right)\\[2ex] &=\sigma(x)\,(1-\sigma(x)) \end{align}$

— Antoni Parellada
kaynak

1

Tüm çabalar için +1 !, matris gösterimi kullanıyor olabilir mi daha kolay olabilir?

— Haitao Du

Doğrusal regresyonda, objektif ve türevinin olduğunu söyleyebilirim , burada , lojistik regresyonda benzer, türev burada ve ?

‖ A x - b ‖^{2}

$\|Ax-b\|^2$

2 A^{T} e

$2A^Te$

e = A x - b

$e=Ax-b$

A^{T} e

$A^Te$

e = p - b

$e=p-b$

p = sigmoid (A x)

$p=\text{sigmoid}~(Ax)$

— Haitao Du

2

bu yüzden çaban için minnettarım. OP'nin diline zaman ayırın !!

— Haitao Du

1

Anladığım kadarıyla kare hata minimizasyonu doğrusal olmayan aktivasyon fonksiyonları için istenmeyen hale getiren dışbükeylik sorunları var. Matris notasyonunda .

\frac{\partial J (θ)}{\partial θ} = \frac{1}{m} X^{⊤} (σ (X θ) - y)

$\frac{\partial J(\theta)}{\partial \theta}=\frac{1}{m}X^\top\left( \sigma(X\theta)-\mathbf y\right)$

— Antoni Parellada

1

@MohammedNoureldin Az önce kısmi türevini, önceki satırdaki sayıcılarda zincir kuralını uygulayarak aldım.

— Antoni Parellada

8

Maddenin aşırı karmaşıklığı izlenimini önlemek için, çözümün yapısını görelim.

Sadeleştirme ve bazı gösterimlerin kötüye kullanılması ile ifadesi cinsinden bir terim olsun ve işlevidir. : $G(\theta)$ $J(\theta)$ $h = 1/(1+e^{-z})$ $z(\theta)= x \theta$

G = y \cdot \log (h) + (1 - y) \cdot \log (1 - h)

$G = y \cdot \log(h)+(1-y)\cdot \log(1-h)$

Bu zincir kuralı kullanabilir: ve tek çözmek bir ( ve sabittir). $\frac{d G}{d \theta}=\frac{d G}{d h}\frac{d h}{d z}\frac{d z}{d \theta}$ $x$ $y$

\frac{d G}{\partial h} = \frac{y}{h} - \frac{1 - y}{1 - h} = \frac{y - h}{h (1 - h)}

$\frac{d G}{\partial h} = \frac{y} {h} - \frac{1-y}{1-h} = \frac{y - h}{h(1-h)}$ için sigmoid tutan, önceki ifadenin sadece bir göstergesidir.

\frac{d h}{d z} = h (1 - h)

$\frac{d h}{d z} = h (1-h)$

Son olarak, . $\frac{d z}{d \theta} = x$

Sonuçların bir araya getirilmesi aranan ifadeyi verir: olur.

\frac{d G}{d θ} = (y - h) x

$\frac{d G}{d \theta} = (y-h)x$

— garej
kaynak

0

Bu cevabın kredisi, bu sayfada daha belirgin bir yeri hak ettiğini düşündüğüm yorumlardan Antoni Parellada'ya gidiyor (diğer pek çok cevap vermediğinde bana yardımcı olduğu gibi). Ayrıca, bu tam bir türetme değil, ifadesinin açık bir ifadesidir . (Tam türetme için diğer cevaplara bakınız). $\frac{\partial J(\theta)}{\partial \theta}$

\frac{\partial J (θ)}{\partial θ} = \frac{1}{m} \cdot X^{T} (σ (X θ) - y)

$\frac{\partial J(\theta)}{\partial \theta} = \frac{1}{m} \cdot X^T\big(\sigma(X\theta)-y\big)$

nerede

\begin{aligned} X \in R^{m \times n} & = Training example matrix \\ σ (z) & = \frac{1}{1 + e^{- z}} = sigmoid function = logistic function \\ θ \in R^{n} & = weight row vector \\ y & = class/category/label corresponding to rows in X \end{aligned}

$\begin{equation} \begin{aligned} X \in \mathbb{R}^{m\times n} &= \text{Training example matrix} \\ \sigma(z) &= \frac{1}{1+e^{-z}} = \text{sigmoid function} = \text{logistic function} \\ \theta \in \mathbb{R}^{n} &= \text{weight row vector} \\ y &= \text{class/category/label corresponding to rows in X} \end{aligned} \end{equation}$

Aynı zamanda, gradyanı hesaplamak isteyenler için bir Python uygulama göre . $J$ $\theta$

import numpy
def sig(z):
return 1/(1+np.e**-(z))


def compute_grad(X, y, w):
    """
    Compute gradient of cross entropy function with sigmoidal probabilities

    Args: 
        X (numpy.ndarray): examples. Individuals in rows, features in columns
        y (numpy.ndarray): labels. Vector corresponding to rows in X
        w (numpy.ndarray): weight vector

    Returns: 
        numpy.ndarray 

    """
    m = X.shape[0]
    Z = w.dot(X.T)
    A = sig(Z)
    return  (-1/ m) * (X.T * (A - y)).sum(axis=1)

— CiaranWelsh
kaynak

0

Analizde çok güçlü olmayan, ancak maliyet fonksiyonunu ayarlamakla uğraşmak ve türev hesaplamak için bir yol bulmak isteyen bizler için ... hesaplamayı yeniden öğrenmek için kısa bir yol otomatik olarak hesaplamak için bu çevrimiçi araçtır türetme, kuralın adım adım açıklamalarıyla birlikte.

https://www.derivative-calculator.net

— Yaoshiang
kaynak