ReLU aktivasyonu SVM'ye eşit olan tek katmanlı NeuralNetwork?


10

Diyelim ki n girdi ve tek çıktı (ikili sınıflandırma görevi) olan basit bir tek katmanlı sinir ağım var. Çıkış düğümündeki etkinleştirme işlevini sigmoid işlevi olarak ayarlarsam, sonuç Lojistik Regresyon sınıflandırıcısı olur.

Aynı senaryoda, çıkış etkinleştirme işlemini ReLU (düzeltilmiş doğrusal birim) olarak değiştirirsem, sonuçtaki yapı bir SVM ile aynı mı yoksa benzer mi?

Değilse neden?


neden böyle olabileceğine dair bir hipoteziniz var mı? tek bir algılayıcının = lojistiğin tam olarak aktivasyondan kaynaklanmasının nedeni - bunlar esasen aynı modeldir, matematiksel olarak (belki de farklı şekilde eğitilmiş olsalar da) - doğrusal ağırlıklar + matris çarpımına uygulanan bir sigmoid. SVM'ler oldukça farklı çalışır - verileri ayırmak için en iyi çizgiyi ararlar - "ağır" / "matrixy" den daha geometriktirler. Benim için, ReLU'lar hakkında beni düşündürecek hiçbir şey yok = ah, bunlar bir SVM ile aynı. (lojistik ve doğrusal svm de çok benzer bir performans sergiliyor)
metjush

bir svm'nin maksimum marj hedefi ve relu aktivasyon fonksiyonu aynı görünür. Dolayısıyla soru.
AD

"SVM'ler oldukça farklı çalışır - verileri ayırmak için en iyi çizgiyi ararlar -" ağır "/" matrixy "den daha geometriktirler. ve algılayıcı
AD

Yanıtlar:


11

E=max(1ty,0)

Ağ kaybının SVM'lerle aynı formda olması için, çıktı katmanındaki doğrusal olmayan etkinleştirme işlevlerini kaldırabilir ve menteşe kaybını geri yayılım için kullanabiliriz.

E=ln(1+exp(ty))

Kayıp fonksiyonları açısından, SVM'ler ve lojistik regresyon oldukça yakındır, ancak SVM'ler destek vektörlerine dayalı eğitim ve çıkarım için çok farklı bir algoritma kullanırlar.

Örüntü Tanıma ve Makine Öğrenimi kitabının 7.1.2 bölümünde SVM ve lojistik regresyon ilişkisi üzerine güzel bir tartışma var .

resim açıklamasını buraya girin


kitaba işaret ettiğiniz için teşekkürler. Bu yüzden aktivasyon fonksiyonlarının yanı sıra gerçek farkın kullanılan optimizasyon algoritmalarında olduğu duygusuna kapılıyorum. LR için basit sınırlandırılmamış degrade iniş kullanabiliriz, SVM'de ise genellikle kısıtlı bir optimizasyonu çözeriz.
AD
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.