Perceptron Kuralı ile Gradyan İniş ve Stokastik Gradyan İniş uygulaması hakkında açıklama

Farklı Perceptron uygulamaları ile biraz denedim ve "iterasyonları" doğru anladığımdan emin olmak istiyorum.

Rosenblatt'ın orijinal algılayıcı kuralı

Anladığım kadarıyla, Rosenblatt'ın klasik perceptron algoritmasında, ağırlıklar aynı anda her eğitim örneğinden sonra güncellenir.

$\Delta{w}^{(t+1)} = \Delta{w}^{(t)} + \eta(target - actual)x_i$

burada $eta$ burada öğrenme kuralıdır. Hem hedef hem de gerçek eşik değerlerdir (-1 veya 1). Antrenman numunesi üzerinde 1 iterasyon = 1 geçiş olarak uyguladım, ancak ağırlık vektörü her antrenman örneğinden sonra güncellenir.

Ve "gerçek" değeri şöyle hesaplıyorum

$sign ({\pmb{w}^T\pmb{x}}) = sign( w_0 + w_1 x_1 + ... + w_d x_d)$

Stokastik eğim inişi

$\Delta{w}^{(t+1)} = \Delta{w}^{(t)} + \eta(target - actual)x_i$

Bununla birlikte, perceptron kuralıyla aynıdır targetve actualeşikli değil gerçek değerlerdir. Ayrıca, "yineleme" yi eğitim örneği üzerindeki yol olarak sayıyorum.

Hem SGD hem de klasik perceptron kuralı bu lineer olarak ayrılabilir durumda birleşir, ancak gradyan iniş uygulamasında sorunlar yaşıyorum.

Dereceli alçalma

Burada, eğitim örneğinin üzerinden geçiyorum ve eğitim örneğinin 1 geçişi için ağırlık değişikliklerini özetliyorum ve daha sonra ağırlıkları güncelledim, örn.

her eğitim örneği için:

$\Delta{w_{new}} \mathrel{{+}{=}} \Delta{w}^{(t)} + \eta(target - actual)x_i$

...

eğitim setinin 1 geçişinden sonra:

$\Delta{w} \mathrel{{+}{=}} \Delta{w_{new}}$

Bu varsayımın doğru olup olmadığını veya bir şeylerin eksik olup olmadığını merak ediyorum. Çeşitli (sonsuz küçük) öğrenme oranları denedim ama herhangi bir yakınsama belirtisi göstermek için alamadım. Yani, yanlış anladım mı diye merak ediyorum. buraya.

Teşekkürler Sebastian

optimization gradient-descent perceptron

$\Delta$

Algılayıcı:

$\pmb{w}^{(t+1)} = \pmb{w}^{(t)} + \eta_t (y^{(i)} - \hat{y}^{(i)}) \pmb{x}^{(i)}$

$\hat{y}^{(i)} = \text{sign} ({\pmb{w}^\top\pmb{x}^{(i)}})$ $i^{th}$

Bu, aşağıdaki "algılayıcı kaybı" fonksiyonunda stokastik bir alt gradyanlı iniş yöntemi olarak görülebilir:

Algılayıcı kaybı:

$L_{\pmb{w}}(y^{(i)}) = \max(0, -y^{(i)} \pmb{w}^\top\pmb{x}^{(i)})$

$\partial L_{\pmb{w}}(y^{(i)}) = \begin{array}{rl} \{ 0 \}, & \text{ if } y^{(i)} \pmb{w}^\top\pmb{x}^{(i)} > 0 \\ \{ -y^{(i)} \pmb{x}^{(i)} \}, & \text{ if } y^{(i)} \pmb{w}^\top\pmb{x}^{(i)} < 0 \\ [-1, 0] \times y^{(i)} \pmb{x}^{(i)}, & \text{ if } \pmb{w}^\top\pmb{x}^{(i)} = 0 \\ \end{array}$

Algılayıcı zaten bu yana ise SGD şeklidir, ben emin SGD güncelleme algılayıcı güncelleme daha farklı olmalı neden değilim. SGD adımını yazma şekliniz, eşik olmayan değerlerle, bir cevabı çok doğru tahmin ederseniz bir kayıp yaşarsınız. Bu kötü.

Toplu iş gradyan adımınız yanlıştır, çünkü "=" kullanmanız gerektiğinde "+ =" kullanıyorsunuz. Mevcut ağırlıklar her bir eğitim örneği için eklenir . Başka bir deyişle, onu yazma şekliniz,

$\pmb{w}^{(t+1)} = \pmb{w}^{(t)} + \sum_{i=1}^n \{\pmb{w}^{(t)} - \eta_t \partial L_{\pmb{w}^{(t)}}(y^{(i)}) \}$

Ne olmalı:

$\pmb{w}^{(t+1)} = \pmb{w}^{(t)} - \eta_t \sum_{i=1}^n {\partial L_{\pmb{w}^{(t)}}(y^{(i)}) }$ .

Also, in order for the algorithm to converge on every and any data set, you should decrease your learning rate on a schedule, like $\eta_t = \frac{\eta_0}{\sqrt{t}}$ .

* The perceptron algorithm is not exactly the same as SSGD on the perceptron loss. Usually in SSGD, in the case of a tie ( $\pmb{w}^\top\pmb{x}^{(i)} = 0$ ), $\partial L= [-1, 0] \times y^{(i)} \pmb{x}^{(i)}$ , so $\pmb{0} \in \partial L$ , so you would be allowed to not take a step. Accordingly, perceptron loss can be minimized at $\pmb{w} = \pmb{0}$ , which is useless. But in the perceptron algorithm, you are required to break ties, and use the subgradient direction $-y^{(i)} \pmb{x}^{(i)} \in \partial L$ if you choose the wrong answer.

So they're not exactly the same, but if you work from the assumption that the perceptron algorithm is SGD for some loss function, and reverse engineer the loss function, perceptron loss is what you end up with.

— Sam Thomson
kaynak

Thank you Sam, and I do apologize for my messy question. I don't know where the deltas come from, but the "+=" was the the thing that went wrong. I completely overlooked that part. Thanks for the thorough answer!