Tüm ağırlığı aynı değere (0.5 diyelim) başlattığınızda neden backpagagation çalışmıyor, ancak rasgele sayılar verildiğinde iyi çalışıyor?
Ağırlıkların başlangıçta aynı olmasına rağmen algoritma hatayı hesaplamamalı ve oradan çalışmamalı mı?
Tüm ağırlığı aynı değere (0.5 diyelim) başlattığınızda neden backpagagation çalışmıyor, ancak rasgele sayılar verildiğinde iyi çalışıyor?
Ağırlıkların başlangıçta aynı olmasına rağmen algoritma hatayı hesaplamamalı ve oradan çalışmamalı mı?
Yanıtlar:
Simetri kırılması.
Tüm ağırlıklar eşit değerlerle başlarsa ve çözüm eşit olmayan ağırlıkların geliştirilmesini gerektiriyorsa, sistem asla öğrenemez.
Bunun nedeni, hatanın ağırlıkların değerleri ile orantılı olarak ağırlıklara geri yayılmasıdır. Bu, doğrudan çıkış birimlerine bağlı tüm gizli birimlerin aynı hata sinyallerini alacağı ve ağırlık değişiklikleri hata sinyallerine bağlı olduğu için, bu birimlerden çıkış birimlerine olan ağırlıkların her zaman aynı olması gerektiği anlamına gelir. Sistem, ağırlıkları eşit tutan bir tür dengesiz denge noktasında başlıyor, ancak hata yüzeyindeki bazı komşu noktalardan daha yüksek ve bu noktalardan birine taşındığında, asla geri dönmeyecek. Sistemi küçük rastgele ağırlıklarla başlatarak bu sorunu ortadan kaldırıyoruz. Bu koşullar altında bu tür simetri problemleri ortaya çıkmaz.
Thierry'nin cevabına eklemek için, hatayı ağırlık vektörünün bir fonksiyonu, yani en aza indirmek istediğiniz Geri yayılma algoritması, bir noktanın yerel bir mahallesine bakarak ve hangi yönün daha küçük bir hataya yol açacağını görerek çalışır. Bu size yerel bir minimum verecektir.
İstediğiniz şey küresel bir minimumdur, ancak onu bulmanın garantili bir yolu yoktur. Ve yüzeyinizde birkaç yerel minima varsa o zaman başınız belada olabilir.
Ancak sadece birkaç tane varsa, Thierry'nin stratejisi işe yaramalıdır - rastgele seçilen noktalarda başlayarak yerel minima için birden fazla arama yapmak, küresel minimumu bulma şansınızı artırmalıdır.
Ve sadece bir minimumun olduğu mutlu durumda - herhangi bir başlangıç ağırlığı vektörü sizi buna götürecektir.