Bir sinir ağındaki her nöron temel olarak bir lojistik regresyon fonksiyonuysa, neden çok katmanlı daha iyidir?


13

Cousera'nın DeepAI kursuna gidiyorum (Hafta3 video 1 "Sinir Ağlarına Genel Bakış") ve Andrew Ng, bir sinir ağındaki her katmanın nasıl başka bir lojistik regresyon olduğunu açıklıyor, ancak bir şeyi nasıl daha doğru hale getirdiğini açıklamıyor.

Peki, 2 katmanlı bir ağda, lojistiği birçok kez hesaplamak onu nasıl daha doğru hale getirir?


7
Genellikle iyi bir tek lojistik regresyon modeline uymak için, önemli özellik engennering yapmanız gerekir. İki kat nn bu işin bir kısmını sizin için yapmaya çalışıyor.
Matthew Drury

@msk, hiç lojistik regresyonunuzu geliştirmek için orijinal özelliklerinize dayalı yeni özellikler oluşturdunuz mu? Gizli katman (lar) ın yaptığı budur.
Ricardo Cruz

Yanıtlar:


10

Lojistik aktivasyon fonksiyonlarını kullanırken, her birimin girişlerini çıkışıyla ilişkilendiren fonksiyonun lojistik regresyon ile aynı olduğu doğrudur. Ancak bu, lojistik regresyon yapan her birimle gerçekten aynı değildir. Fark, lojistik regresyonda, ağırlıklar ve yanlılık, çıkışın verilen hedef değerlere (log / çapraz entropi kaybını kullanarak) en iyi uyacak şekilde seçilmesidir. Buna karşılık, bir sinir ağındaki gizli birimler çıktılarını aşağı akım birimlerine gönderir. Tek tek gizli birimler için eşleştirilecek hedef çıktı yok. Aksine, ağırlıklar ve sapmalar ağın nihai çıktısına bağlı olan bazı objektif işlevleri en aza indirecek şekilde seçilir.

Lojistik regresyon yapmak yerine, her gizli üniteyi bazı özellik alanlarında bir koordinat hesaplamak olarak düşünmek daha mantıklı olabilir. Bu perspektiften, gizli bir katmanın amacı girdisini dönüştürmektir - giriş vektörü gizli katman aktivasyonlarının bir vektörüne eşlenir. Bunu, girdiyi her bir gizli birime karşılık gelen bir boyutla bir özellik alanına eşleme olarak düşünebilirsiniz.

Çıktı katmanı genellikle bu özellik alanında çalışan standart bir öğrenme algoritması olarak düşünülebilir. Örneğin, bir sınıflandırma görevinde, çapraz entropi kaybına sahip bir lojistik çıktı birimi kullanmak, özellik alanında (ya da softmax çıktılar kullanılıyorsa multinomial lojistik regresyon) lojistik regresyon gerçekleştirmeye eşdeğerdir. Bir regresyon görevinde, kare hatasıyla doğrusal bir çıktı kullanmak, özellik alanında en küçük kareler doğrusal regresyonunu gerçekleştirmeye eşdeğerdir.

Ağı eğitmek, birlikte en iyi performansı veren özellik alanı eşleme ve sınıflandırma / regresyon işlevini (özellik alanında) öğrenmektir. Doğrusal olmayan gizli birimlerin varsayılması, gizli katmanın genişliğinin artırılması veya birden fazla gizli katmanın istiflenmesi, daha karmaşık özellik alanı eşlemelerine izin vererek daha karmaşık işlevlerin sığmasını sağlar.


7

Doğrusal olmamanın gücünü görmenin bir yolu, evrensel yaklaşım teoremini not etmektir .

Uygulamada çok önemli olmasa da (tek katmanlı ağların yetenekleri ile ilgili), size (keyfi olarak uzun) sigmoid toplamlarını kullanırsanız, prensipte herhangi bir sürekli işlevi istenen herhangi bir seviyeye yaklaştırabileceğinizi söyler. Fourier teorisini biliyorsanız veya Weierstrass yaklaşım teoremini hatırlarsanız, şaşırtıcı olmamalıdır.


3
Bu, soruyu gerçekten çok az da olsa doğru şekilde cevaplayan tek kişiydi. Gizli özellikler, orijinal özellikleri birleştiren güçlü yeni özellikler oluşturmak için yeterlidir. Sorun, çok fazla düğümü olan gizli bir katmana ihtiyacınız olabilir ve yakınsama işlemi en iyi gizli katmanları> 1 olan daha derin bir ağ ile çalışır.
Ricardo Cruz

5

Sinir ağında gizli katmanlar olduğunda, doğrusal olmayan özellikler ekliyoruz. Biraz anlam kazanmak için lütfen cevabımı kontrol edin.

sinir ağlarını doğrusal olmayan bir sınıflandırma modeli yapan nedir?

Özellikle, iç içe sigmoid işlevi orijinal özelliklerin doğrusal dönüşümünden ve bir sigmoid işlevinden (lojistik regresyon) daha "güçlü" olacaktır.


İşte OP'nin yorumlarını ele almak için sayısal bir örnek.

X10×37W3×7X×W10×77


Sadece merak ediyorum, o zaman birinci katmanın çıktıdaki farkı nedir, yani Ide 1, X1, X2, X3, Node 2 de hepsi lojistik regresyon ise X1, X2, X3 alır, nasıl olur çıktıları farklı olacak mı?
mskw

3 özelliğiniz ve 10 gizli biriminiz olduğunu varsayalım, gizli katmanın çıktısında 10 "tasarlanmış özellik" bulunur.
Haitao Du

Neden "tasarlanmış özellikler" olarak adlandırıyorsunuz, X1, X2, X3'ten bahsettiğiniz özellikler de nelerdir?
mskw

Yorumlarınızı ele almak için cevabımı düzenleyeceğim.
Haitao Du

Revizyonunuz sayesinde, açıklamanızdan, sorumu cevaplamadığınızdan emin değilim, ya da önce köprü kurmam gereken bir bilgi boşluğum var. Özellikle, cevabınızdan Ağırlık düğümün çıkış fonksiyonunun her birine atıfta bulunuyor mu? Öyleyse, aynı katmandaki diğer düğümlerin her birinden nasıl farklıdırlar?
mskw

3

Standart lojistik regresyonda son katmanda 1 çıktı var. Bununla birlikte, tek bir gizli katman sinir ağı ile, her biri farklı bir lojistik regresyon modelinin bir çıktısı olarak düşünülebilen çoklu ara değerlere sahip olabiliriz, yani sadece aynı lojistik regresyonu tekrar tekrar gerçekleştirmiyoruz. Bu durumda, bunların kombinasyonunun standart lojistik regresyon modelinden daha fazla ifade yeteneğine sahip olmasının mümkün olduğunu düşünmek büyük bir sıçrama değildir (ve aynı zamanda uygulama ve teoride de gösterilmiştir ).

Nyj=f(i=1Nwjixi+bj)fwjixibjbir yanlılık. Ağırlıklar, hedefimizi optimize etmek için bir optimizasyon algoritması tarafından seçilir , örneğin sınıflandırma hatasını en aza indirir. Başlatma, genellikle ağırlıkları optimize etmek için kullanılan gradyan iniş algoritmaları için çok önemlidir. Bkz. Https://intoli.com/blog/neural-network-initialization/ burada tüm ağırlıklar 0'dan başlıyorsa, ağ öğrenemez.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.