Derin sinir ağı normalizasyon olmadan çarpma fonksiyonunu yaklaşık olarak gösterebilir mi?


27

Diyelim ki f = x * ystandart derin sinir ağını kullanarak basit için regresyon yapmak istiyoruz .

Bir hiden katmanına sahip NN'nin herhangi bir işlevi tahmin edebileceğini söyleyen araştırmalar olduğunu hatırlıyorum, ancak denedim ve normalleştirme olmadan NN bu basit çarpma bile yaklaşık olarak yapamadı. Verilerin sadece log-normalizasyonu yardımcı oldu m = x*y => ln(m) = ln(x) + ln(y). Ama bu hile gibi görünüyor. NN bunu log-normalizasyon olmadan yapabilir mi? Cevapsız bir şekilde (benim için olduğu gibi) - evet, yani soru daha fazla, böyle bir NN'nin türü / yapılandırması / düzeni ne olmalı?

Yanıtlar:


13

Büyük bir çarpma işlevi gradyanı, ağı hemen hemen hemen tüm gizli düğümlerinin sıfır gradyanına sahip olduğu korkunç bir duruma zorlar (sinir ağı uygulama ayrıntıları ve sınırlamaları nedeniyle). İki yaklaşımı kullanabiliriz:

  1. Bir sabit tarafından bölün. Biz sadece öğrenmeden önce her şeyi bölüp sonra çarpıyoruz.
  2. Günlük normalleştirme kullanın. Ekleme içine çarpma yapar:

    m=xyln(m)=ln(x)+ln(y)


5

Benzer bir soru bugün beni daha önce vurdu ve hızlı bir cevap bulamadığımda şaşırdım. Sorum şu ki, NN'lerin yalnızca toplama işlevlerine sahip olmaları, çarpımsal işlevleri nasıl modelleyebilecekleridi.

Bu da uzun bir açıklama olmasına rağmen tür, bunu yanıtladı. Özetim, NN'nin modelin işlev yüzeyinden ziyade işlev yüzeyini oluşturmasıydı. Açık olan, geriye dönük olarak…


5

Relu aktivasyon fonksiyonuna sahip NN, giriş aralığı sınırlı olduğunda yaklaşık çarpımı yaklaşık olarak görebilir. Bunu hatırla relu(x) = max(x, 0).

NN'nin bir kare fonksiyonuna yaklaşması yeterlidir g(z) = z^2, çünkü x*y = ((x-y)^2 - x^2 - y^2)/(-2). Sağ taraf sadece doğrusal kombinasyonlara ve karelere sahiptir.

NN z^2parçalı bir doğrusal fonksiyon ile yaklaşık değerlendirebilir . Örneğin, menzilde [0, 2]bir kombinasyon xve relu(2(x-1))o kadar da kötü değil. Aşağıdaki şekil bunu görselleştirir. Bu teori ötesinde faydalı olup olmadığını hiç bir fikrim yok :-) görüntü tanımını buraya girin


0

"bir gizli katman", kullanılan nöronların sayısını ve kullanılan etkinleştirme işlevi türlerini sınırlamaz, yine de geniş bir temsil alanına sahiptir. Bu sorunun varlığını doğrulamak için basit bir yöntem: Bu gerileme problemini gerçek bir nöron ağı ile eğitin, her ağırlık ve önyargıyı kaydedin, bu parametreleri kullanın, tahmin eğrisini çizin, hedef fonksiyon eğrisi ile karşılaştırın. Bu yazı yardımcı olabilir.


0

StackExchange'te yeni aktif bir kullanıcı olduğum için yorum yapamam. Ancak bunun önemli bir soru olduğunu düşünüyorum çünkü açıklanması zor fakat anlaşılması zor. Saygılarımla, kabul edilen cevabın yeterli olduğunu sanmıyorum. Standart bir ileri beslemeli NN'nin çekirdek işlemleri hakkında, s(W*x+b)bazı doğrusal olmayan aktivasyon işlevi için formun aktivasyonlarını düşünürseniz, soluşan (çok katmanlı) bir ağda bile bu durumdan çarpma işleminin "nasıl elde edileceği" açık değildir. Ölçeklendirme (kabul edilen cevabın ilk mermisi) soruyu hiç ele almıyor gibi görünüyor ... ne ile? Girişlerx ve yher örnek için muhtemelen farklıdır. Ve kütüğü almak bildiğiniz sürece iyidirYapmanız gereken budur ve ön işleme işleminde işaret konusuna dikkat edin (çünkü kayıtlar negatif girdiler için tanımlanmamıştır). Ancak bu, sinir ağlarının sadece “öğrenebileceği” (OP'nin söylediği gibi bir hile gibi hissettirdiği) fikrine dayanmaz. Sorunun, benden daha zeki biri tarafından, gerçekten oluncaya kadar cevaplanması gerektiğini düşünmüyorum!

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.