Sinir ağlarında önyargı düğümünün önemi


19

Önyargı düğümünün modern sinir ağlarının etkinliği için ne kadar önemli olduğunu merak ediyorum. Sadece birkaç girdi değişkeni olan sığ bir ağda önemli olabileceğini kolayca anlayabiliyorum. Bununla birlikte, derin öğrenme gibi modern sinir ağları, belirli bir nöronun tetiklenip tetiklenmediğine karar vermek için genellikle çok sayıda girdi değişkenine sahiptir. Bunları örneğin LeNet5 veya ImageNet'ten kaldırmanın gerçek bir etkisi olur mu?


@gung - Başlığı "önyargı düğümü" ifadesini kullanmak için düzenlediğinizi gördüm. Bu unvanı neden tercih ettiğinizi merak ediyorum? Bu kullanımı daha önce hiç duymamıştım. Ayrıca, önyargı bir ağda ayrı bir düğüm olmadığında "düğüm" kelimesini kullanmak kafa karıştırıcı gibi görünmektedir.
pir

2
Beğenmediyseniz, düzenlemeyi özür dilerim. Ben yıllardır w / YSA oynamadı rağmen bazı adı oldukça standart olduğunu düşündüm & bazı yerine "önyargı nöron" diyoruz. FWIW, "önyargı" istatistik / ML'de biraz belirsiz; en yaygın olarak örnekleme dağılımı parametrenin gerçek değeri üzerinde merkezlenmeyen bir tahmin ediciyi veya gerçek işlev / ortalamadan vb. ANN.
gung - Monica'yı eski

2
Gerçek bir düğümdür - en azından herhangi birinin olması anlamında - ağda. Örneğin, bu görüntüdeki siyah düğümlere bakın .
gung - Monica'yı

Tamam, bu mantıklı - "önyargı" nın oldukça belirsiz olduğu doğrudur. Açıklama için teşekkürler.
pir

1
Nöronlar için yanlılık birimi üssel ateş gibi görünür, bu doğada olur.
user3927612

Yanıtlar:


15

Önyargıların kaldırılması performansı kesinlikle etkileyecektir ve işte bu yüzden ...

Her nöron basit lojistik regresyon gibidir ve sahip y=σ(Wx+b) . Giriş değerleri ağırlıklar ile çarpılır ve sapma sigmoid fonksiyonundaki (tanh vb.) Başlangıçtaki ezme seviyesini etkiler, bu da istenen doğrusal olmama özelliğine yol açar.

Örneğin, tüm giriş pikselleri siyah x 0 olduğunda bir nöronun tetiklemesini istediğinizi varsayalım . W ağırlığınız ne olursa olsun önyargı yoksa , y = σ ( G xy1x0Wnöron her zaman y 0.5 ateşleyecektir.y=σ(Wx)y0.5

Bu nedenle, önyargı terimlerini kaldırarak sinir ağınızın performansını önemli ölçüde azaltabilirsiniz.


2
Teşekkürler, bu biraz mantıklı. Çoğu modern ağın aktivasyon fonksiyonu olarak ReLU kullanmasına rağmen (örneğin, paper.nips.cc/paper/4824-imagenet'e bakınız ), tüm giriş pikselleri siyah olduğunda net olması gerekiyorsa, bu yine de alakalı olabilir. ReLU, f (x) = maks (0, x) olarak tanımlanır.
pir

kesinlikle! Aynı durum ...
Yannis Assael

4
y1x0x0y0.5

2
Teoriye katılırken, modern büyük ağlarla sıfır giriş elde etme şansının ihmal edilebilir olduğunu belirtmek gerekir. Bu kısmen neden - büyük olasılıkla tek nöron çıkışı bakmayanbirini derin ağlar - Bu da net bir 1 yangın isteyeyim varsayımına dayanır bırakma ağları regularizing için çok popüler.
Max Gordon

2
@MaxGordon doğru. Bu cevap bu soru için geçerli değildir. Büyük bir ağdaki önyargıyı kaldırmayı deneyin ve çok az fark yarattığını göreceksiniz.
Neil G

10

Sorunuzun özel bağlamındaki diğer cevaba katılmıyorum. Evet, küçük bir ağda bir sapma düğümü önemlidir. Bununla birlikte, büyük bir modelde, her bir düğüm tüm girdilerinin ortalama aktivasyonundan bir sapma düğümü oluşturabilen, bias girişlerinin kaldırılması çok az fark yaratır, ki bu da büyük sayılar kanunu tarafından kabaca normal olacaktır. İlk katmanda, bunun gerçekleşme yeteneği giriş dağılımınıza bağlıdır. Örneğin MNIST için, girdinin ortalama aktivasyonu kabaca sabittir.

Küçük bir ağda, elbette bir önyargı girişine ihtiyacınız vardır, ancak büyük bir ağda, kaldırılması neredeyse hiçbir fark yaratmaz. (Ama neden kaldırsın ki?)


3

Yeterince üne sahip olsaydım @ NeilG'nin cevabı hakkında yorum yapardım, ama ne yazık ki ...

Bu konuda sana katılmıyorum Neil. Diyorsun:

... çok sayıda yasa tarafından kabaca normal olacak olan tüm girdilerinin ortalama aktivasyonu.

Buna karşı çıkarım ve çok sayıda yasanın tüm gözlemlerin birbirinden bağımsız olmasını gerektirdiğini söyleyebilirim. Sinir ağları gibi bir şeyde durum böyle değildir. Her aktivasyon normal olarak dağıtılmış olsa bile, bir giriş değerini olağanüstü yüksek olarak gözlemlerseniz, diğer tüm girişlerin olasılığını değiştirir. Bu nedenle, "gözlemler", bu durumda girdiler bağımsız değildir ve çok sayıda yasa geçerli değildir.

Cevabınızı anlamadım sürece.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.