Sinir ağındaki başlangıç ​​ağırlıkları neden rastgele?


10

Sinir ağları konusunda bol deneyime sahip birine aptalca gelebilir ama beni rahatsız ediyor ...

Demek istediğim, başlangıç ​​ağırlıklarının randomize edilmesi, eğitimli ağın neye benzemesi gerektiğine biraz daha yakın olabilecek daha iyi sonuçlar verebilir, ancak makul ağırlık aralığı için 0,5 veya başka bir ortalama olurken, olması gereken şeyin tam tersi de olabilir. değeri iyi bir varsayılan ayar gibi görünür ...

Nöronlar için başlangıç ​​ağırlıkları neden hepsi için 0,5 yerine rastgele dağıtılıyor?


Düzenlememle ilgili sorun neydi? Geliştirilemeyeceğini mi düşünüyorsun?
nbro

@nbro, çok geniş hale getiren birden fazla soru ekliyor ...
Matas Vaitkevicius

Gönderinizde bulunmayan hangi soruları ekledim? Ben sadece hipotez olarak söylediklerini soru olarak yeniden formüle ettim.
nbro

Bu arada, ifadeleriniz doğru değil. Ağırlıklar randomize edilmiyor, ancak rastgele başlatılıyorlar. Bunlar iki farklı kavram ve ikincisini kastediyordunuz. Benim düzenlemem de ifadeyi geliştirmekti.
nbro

@nbro Merhaba, bak, ben fark edilmemiştim ve kesinlikle seni rahatsız etmek istemiyordum. Ben de soru sormada, ifadelerde ve her şeyde kötüyüm. Seni rahatsız ettiysem özür dilerim.
Matas Vaitkevicius

Yanıtlar:


6

Bir sinir ağındaki başlangıç ​​ağırlıkları rasgele başlatılır, çünkü sinir ağlarını eğitmek için yaygın olarak kullanılan gradyan bazlı yöntemler, tüm ağırlıklar aynı değere başlatıldığında iyi çalışmaz. Sinir ağlarını eğitmek için tüm yöntemler gradyan tabanlıdır, ancak çoğu durumda sinir ağının aynı değere başlatılmasının, ağın optimum bir çözüm üzerinde birleşmesi çok daha uzun sürdüğü gösterilmiştir. Ayrıca, yerel bir minimada sıkıştığı için sinir ağınızı yeniden eğitmek istiyorsanız, aynı yerel minimada sıkışacaktır. Yukarıdaki nedenlerden dolayı, başlangıç ​​ağırlıklarını sabit bir değere ayarlamıyoruz.

Referanslar: Ağırlıkları aynı değeri başlattığınızda backpagagation neden çalışmıyor?


Aslında, tüm ağırlıklar aynı ise parçalanırlar.
Quonux

9

"Simetri sonu" sorununa sahip olacağınız için hepsini 0,5'e atamamalısınız.

http://www.deeplearningbook.org/contents/optimization.html

Belki de kesin olarak bilinen tek özellik, başlangıç ​​parametrelerinin farklı birimler arasında “ simetriyi kırması ” gerektiğidir . Aynı aktivasyon işlevine sahip iki gizli ünite aynı girişlere bağlanırsa, bu ünitelerin farklı başlangıç ​​parametreleri olmalıdır. Aynı başlangıç ​​parametrelerine sahiplerse, deterministik bir maliyet ve modele uygulanan deterministik bir öğrenme algoritması, bu ünitelerin her ikisini de aynı şekilde sürekli olarak güncelleyecektir. Model veya eğitim algoritması, farklı birimler için farklı güncellemeleri hesaplamak için stokastiklik kullanabiliyor olsa bile (örneğin, biri bırakma ile çalışıyorsa), genellikle her bir birimi diğer birimlerden farklı bir işlev hesaplamak için başlatmak en iyisidir. Bu, ileri yayılmanın sıfır uzayında hiçbir giriş paterninin kaybolmamasına ve geri yayılımın sıfır uzayında degrade kalıplarının kaybolmamasına yardımcı olabilir.


2

Bu çok derin bir soru. Örneğin overparameterized derin ağ (için degrade asıllı yakınlaşma kanıtı geçtiğimiz günlerde gazetelerin seri vardı, Gradyen Derin Sinir Ağları Global Minimumları bulur , Aşırı Parametrelendirme yoluyla Derin Öğrenme A Yakınsama Teorisi veya Stokastik Gradyen optimize Aşırı parametreli Deep ReLU Networks ). Hepsi, ağırlıkların rastgele Gauss dağılımına dair kanıt sağlar. Kanıtların iki faktöre bağlı olması önemlidir:

  1. Rastgele ağırlıklar ReLU'yı istatistiksel olarak sıkıştırıcı haritalama yapar (doğrusal dönüşüme kadar)

  2. Rastgele ağırlıklar, herhangi bir giriş dağıtımı için giriş ayrımını korur - yani giriş örnekleri ayırt edilebilirse ağ yayılımı onları ayırt edilemez hale getirmez

Bu özelliklerin deterministik matrislerle çoğaltılması çok zordur ve deterministik matrislerle çoğaltılabilir olsalar bile NULL-uzay (çekişsel örneklerin alanı) yöntemi pratik yapmaz hale getirecek ve gradyanlı iniş sırasında bu özelliklerin daha önemli şekilde korunması yöntemi pratik olmayacaktır. Ama genel olarak çok zor ama imkansız değil ve bu yönde bazı araştırmalar gerektirebilir. Benzer durumda, bazı sonuçlar vardı deterministik matrisleri için Kısıtlı İzometri Mülkiyet içinde sıkıştırılmış algılama .

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.