Sinir ağı - ağırlıkların anlamı


11

İleri beslemeli NN kullanıyorum. Kavramı anlıyorum, ama sorum ağırlıklar hakkında. Onları nasıl yorumlayabilirsiniz, yani neyi temsil ederler ya da nasıl karşılanamazlar (kuşatma sadece fonksiyon katsayıları)? "Ağırlık alanı" adı verilen bir şey buldum, ama bunun ne anlama geldiğinden emin değilim.


Yanıtlar:


6

Bireysel ağırlıklar, birimler arasındaki bağlantıların gücünü temsil eder. A biriminden B birimine kadar olan ağırlık daha büyükse (hepsi eşittir), A'nın B üzerinde daha fazla etkiye sahip olduğu anlamına gelir (yani B'nin aktivasyon seviyesini arttırmak veya azaltmak).

Ayrıca bir birime gelen ağırlık kümesini, o birimin 'neye önem verdiğini' ölçmek olarak düşünebilirsiniz. Bunu ilk katmanda görmek en kolayı. Diyelim ki bir görüntü işleme ağımız var. İlk birimler giriş piksellerinden ağırlıklı bağlantılar alır. Her bir birimin etkinleştirilmesi, bir etkinleştirme işlevinden geçirilen ağırlıklı bir piksel yoğunluğu değerleri toplamıdır. Aktivasyon fonksiyonu monotonik olduğundan, giriş pikselleri o ünitenin gelen ağırlıklarına benzediğinde (büyük nokta ürüne sahip olma anlamında) belirli bir ünitenin aktivasyonu daha yüksek olacaktır. Böylece, ağırlıkları bir görüntü özelliği tanımlayan bir dizi filtre katsayısı olarak düşünebilirsiniz. Daha yüksek katmanlardaki (ileri beslemeli ağdaki) birimler için girdiler artık piksellerden değil, alt katmanlardaki birimlerden gelmektedir. Yani, gelen ağırlıklar daha çok '

Orijinal kaynağınızdan emin değilim, ancak 'ağırlık alanı' hakkında konuşsaydım, ağdaki tüm ağırlıkların tüm olası değerlerinden bahsediyordum.


yukarıdaki cevabınıza referansla, 'giriş pikselleri o birimin gelen ağırlıklarına (büyük noktalı bir ürüne sahip olma anlamında) benzer olduğunda belirli bir birimin aktivasyonu daha yüksek olacaktır', lütfen bunu biraz açıklayabilir misiniz? Girişlerin giriş ve gizli birim arasındaki ağırlıklara benzemesi, gizli birim aktivasyonunun daha yüksek olacağı anlamına mı geliyor?
Ironluca

1
Bu, giriş ile gizli ünitenin ağırlıkları arasındaki nokta ürün daha büyük olduğunda gizli ünitenin aktivasyonunun daha fazla olacağı anlamına gelir. Nokta ürün, göreli bir benzerlik ölçüsü olarak düşünülebilir. Diyelim ki iki ve vektörünü (aynı normla) üçüncü bir vektörüyle karşılaştırmak istiyoruz . daha benzerdir daha halinde , anlamında arasındaki açı ve arasındaki daha küçük olan ve . Göreli diyorum çünkü normlara bağlı. Bkz. En.wikipedia.org/wiki/Cosine_distance .x1x2yx1yx2x1y>x2yx1yx2y
user20160

6

Bir ağ mimarisine ve belirli bir katmana bağlıdır. Genel olarak NN'ler yorumlanamaz, bu ticari veri analizindeki en büyük dezavantajıdır (hedefiniz modelinizden eyleme geçirilebilir içgörüleri ortaya çıkarmaktır).

Ama kıvrımlı ağları seviyorum, çünkü bunlar farklı! Üst katmanları, kolayca anlaşılamayan transfer öğrenimi ve sınıflandırma için kullanılabilen çok soyut kavramları öğrenmesine rağmen, alt katmanları Gabor filtrelerini doğrudan ham verilerden öğrenir (ve böylece bu filtreler olarak yorumlanabilir). Le Cun konferansındaki örneğe bir göz atın:

resim açıklamasını buraya girin

Buna ek olarak, M. Zeiler ( pdf ) ve diğer birçok araştırmacı bir şey yararlı lakaplı öğrenilen convnet "anlama" ve sağlamak için çok yaratıcı yöntem icat Deconvolutional ağları ki bunlara 'iz' ileri yaparak bazı convnet girdi resimleri ve hatırlanmasını üzerinden geçmek hangi nöronlar hangi resimler için en büyük aktivasyonlara sahipti. Bu, böyle çarpıcı bir içgözlem verir (aşağıda birkaç katman gösterildi):

Konvolüsyonel ağ içgözlemi M.Zeiler

Sol taraftaki gri görüntüler sağ taraftaki renkli resimlerle nöron aktivasyonlarıdır (daha fazla yoğunluk - daha büyük aktivasyon). Bu aktivasyonların gerçek resimlerin iskelet temsilleri olduğunu görüyoruz, yani aktivasyonlar rastgele değil. Bu nedenle, konveksiyonumuzun gerçekten yararlı bir şey öğrendiğine ve görünmeyen resimlerde iyi bir genellemeye sahip olacağına dair sağlam bir umudumuz var.


1

Bence çok fazla yorumlanamayan model üzerinde çok çalışıyorsunuz. Sinir ağı (NN), size daha iyi performans verecek kara kutu modellerinden biridir, ancak içeride neler olduğunu anlamak zordur. Ayrıca, NN içinde binlerce hatta milyonlarca ağırlığa sahip olmak çok mümkündür.

NN, büyük miktarda lokal minimaya sahip olabilen çok büyük doğrusal olmayan dışbükey bir fonksiyondur. Farklı başlangıç ​​noktasıyla birden fazla kez eğitirseniz, ağırlıklar farklı olacaktır. İç ağırlıkları görselleştirmenin bazı yollarını bulabilirsiniz, ancak aynı zamanda size çok fazla bilgi vermez.

İşte MNIST veriler için NN görselleştirme üzerine bir örnek . Sağ üst şekil (aşağıda çoğaltılmıştır), ağırlıklar uygulandıktan sonra dönüştürülmüş özellikleri gösterir.

resim açıklamasını buraya girin


-1

Basit ağırlıklar olasılıktır.

Bir bağlantının doğru ya da yanlış cevabı vermesi olasılığı. Çok katmanlı ağlardaki yanlış sonuçlar bile yararlı olabilir. Bir şeyin o olmadığını söylemek ..


Beni kimin düşürdüğünü merak eden sinir ağlarının istatistiği var. geçmişini öğrenmek ..
user3800527

2
Ben aldatmadım, ama dürüstçe cevap çok yararlı görünmüyor. Evet, bazı ağ mimarilerinden (Boltzmann makineleri veya Hopfield ağları gibi) istatistiksel mekaniklerden esinlenilmiştir, ancak orada bile “bir olayın göreli sıklığını sınırlamak” anlamında ağırlıklar olasılık değildir. Ağırlıklar da negatif veya birden büyük olabilir, olasılıklar olamaz.
nikie

işaretin cevabı yansıttığı, bunun olasılığı sayıdır.
user3800527

Bu sadece sınırlı mimariler ve öğrenilecek eğitim etiketi türleri için geçerlidir.
Emil
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.