Hinton'un “kapsül teorisi” nasıl çalışır?


35

Geoffrey Hinton sinir ağlarında "kapsül teorisi" olarak adlandırdığı bir şeyi araştırıyor. Bu nedir ve nasıl çalışır?


8
Şimdi bu makaleye bakabilirsiniz: arxiv.org/abs/1710.09829 Kapsüller Arasında Dinamik Yönlendirme Sara Sabour, Nicholas Frosst, Geoffrey E Hinton
Danke Xie

1
Daha yeni bilgilerle ilgili bir soru var (Kasım 2017): Kapsül Ağlarının arkasındaki ana kavram nedir?
mjul

Yanıtlar:


31

Henüz yayınlanmadı; Mevcut en iyi online bu slaytlar için bu konuşma . (Birkaç kişi bu bağlantıyla daha önceki bir konuşmaya atıfta bulunur , ancak ne yazık ki bu cevabı yazarken kırılmıştır.)

Benim izlenimim, bunun sinir ağı içindeki alt ağların yaratılmasını resmileştirme ve soyutlama çabası olduğu yönünde. Yani, standart bir sinir ağına bakarsanız, katmanlar tamamen bağlanır (yani, katman 1'deki her nöron, katman 0'daki her nörona erişebilir ve katman 2'deki her nöron tarafından erişilir). Ancak bu açıkça kullanışlı değil; on yerine diyelim ki, sahip olabilir, n, her bir ayrı görev uzmanlaşmış bu tabakalar ( 'kapsüller') paralel yığınlarının (kendisi birden fazla katmandan daha gerektirebilir başarılı bir şekilde tamamlamak için).

Sonuçlarını doğru hayal ediyorsam, bu daha sofistike grafik topolojisi, elde edilen ağın hem etkinliğini hem de yorumlanabilirliğini kolayca artırabilecek bir şeye benziyor.


9
Makale şimdi (Eki 2017) yayınlandı: arxiv.org/pdf/1710.09829.pdf
machinaut

13

Önceki cevabı tamamlamak için: Bu konuda çoğunlukla ham veriden düşük seviyeli kapsülleri öğrenmekle ilgili bir yazı var, ancak Hinton'ın kapsülü giriş bölümünde şu şekilde açıklıyor: http://www.cs.toronto.edu/~ fritz / absps / transauto6.pdf

Ayrıca, yukarıdaki cevaptaki MIT konuşması ile bağlantının tekrar çalıştığını belirtmek de önemlidir.

Hinton'a göre, bir "kapsül", bir varlığın sınırlı bir alan içinde mevcut olup olmadığını belirten ve "varlık parametreleri" nin göreceli olarak pozunu belirten bir "poz parametresi" vektörünü gösteren bir tabaka içindeki bir nöron alt kümesidir. kanonik bir versiyon.

Düşük seviyeli kapsüller tarafından çıkarılan parametreler, eğer tahminler kendi parametrelerini kabul ederse ve kendi parametrelerini çıkarsa aktive olan, daha yüksek seviyeli kapsüller tarafından temsil edilen varlıkların pozu için tahminlere dönüştürülür (daha yüksek seviye poz parametreleri alınan tahminlerin ortalamasıdır). ).

Hinton, bu yüksek boyutlu tesadüf tespitinin beyindeki mini sütun organizasyonun ne olduğunu iddia ediyor. Asıl hedefi, daha derin katmanların poz hakkında bilgi kaybettiği evrişimli ağlarda kullanılan maksimum havuzu değiştirmek gibi görünüyor.


4

Kapsül ağları, Hinton'un makinedeki insan beynine ilişkin gözlemlerini taklit etmeye çalışır. Motivasyon, sinir ağlarının, parçaların mekansal ilişkilerinin daha iyi modellenmesine ihtiyaç duymasından kaynaklanmaktadır. Birlikte varoluşu modellemek yerine, göreceli konumlandırmayı göz ardı ederek, kapsül ağları farklı alt bölümlerin küresel göreceli dönüşümlerini bir hiyerarşi boyunca modellemeye çalışır. Yukarıda, diğerleri tarafından açıklandığı gibi, eşdeğerlik - değişmezlik dengesidir.

Bu ağlar bu nedenle bir bakış açısı / yönlendirme bilincini içerir ve farklı yönelimlere farklı tepkiler verir. Bu özellik onları daha fazla ayırt edici kılarken, gizli alan özellikleri yorumlanabilir, belirli ayrıntılar içerdiğinden poz tahminini gerçekleştirme kabiliyetini potansiyel olarak ortaya koymaktadır.

Bütün bunlar, ağda başka bir katmanı birleştirmek yerine katman içinde kapsüller adı verilen iç içe bir katman ekleyerek gerçekleştirilir. Bu kapsüller, her düğüm için bir skalar yerine vektör çıkışı sağlayabilir.

Kağıdın en önemli katkısı, standart maksimum havuzlamanın yerini akıllı bir strateji ile değiştiren dinamik yönlendirmedir. Bu algoritma , çıkışın yalnızca yukarıdaki katmandaki uygun ebeveyne gönderilmesini sağlamak için kapsül çıktılarına ortalama kayma kümelemesi uygular .

Yazarlar ayrıca katkıları, aynı zamanda daha iyi öğrenmede yardımcı olan ve MNIST’te en son teknoloji sonuçları gösteren yardımcı olurlar.

Son makalede Kapsüller Arasında Dinamik Yönlendirme adı verilir ve Arxiv'de erişilebilir: https://arxiv.org/pdf/1710.09829.pdf .


3

Kağıtlarına göre Kapsüller Arası Dinamik Yönlendirme

Bir kapsül, aktivite vektörü bir nesne veya nesne kısmı gibi belirli bir varlık tipinin somutlaştırma parametrelerini temsil eden bir grup nörondur. Faaliyet vektörünün uzunluğunu, kuruluşun var olma olasılığını ve bunun örnekleme parametrelerini temsil etme yönelimini temsil etmek için kullanırız. Bir seviyedeki aktif kapsüller, dönüşüm matrisleri yoluyla daha yüksek seviyeli kapsüllerin başlatılma parametreleri için tahminler yapar. Çoklu tahminler kabul ettiğinde, daha yüksek seviyeli bir kapsül aktif hale gelir. Ayrımcı olarak eğitilmiş, çok katmanlı bir kapsül sisteminin, MNIST'de en son teknolojiye sahip bir performans sergilediğini ve üst üste binen rakamları tanımadaki evrimsel bir ağdan çok daha iyi olduğunu göstermektedir. Bu sonuçları elde etmek için, yinelemeli bir anlaşma yönlendirme mekanizması kullanıyoruz: Daha düşük seviyeli bir kapsül, çıktısını, aktivite vektörleri büyük bir skaler ürüne sahip olan ve daha düşük seviyeli kapsülden gelen tahmin ile daha yüksek seviyeli kapsüllere göndermeyi tercih eder. Makalenin son hali, gözden geçirenlerin yorumlarına eşlik etmek için revize edilmiştir.


2
İyi bir cevap genellikle bir alıntıdan daha fazlasıdır. Genellikle daha net bir şekilde yeniden başlayabilir veya daha derinlere gidebilirsiniz. Çok nadiren sadece iyi bir cevap yapmak için gereken tüm bir alıntı. Bunu düzenleyerek biraz geliştirebileceğinizi düşünüyor musunuz ?
kullanici58

3

Konvolüsyonel sinir ağlarının en büyük avantajlarından biri çeviriye değişmez olmalarıdır. Ancak bu değişmezliğin bir bedeli vardır ve bu, farklı özelliklerin birbiriyle ne kadar ilişkili olduğunu dikkate almaz. Örneğin, bir yüz resmimiz varsa CNN, ağız özelliği ile burun özellikleri arasındaki ilişkiyi ayırt etmekte zorlanacaktır. Maksimum havuz katmanları bu etkinin ana nedenidir. Çünkü maksimum havuzlama katmanları kullandığımız zaman, ağzın ve gürültünün kesin yerlerini kaybederiz ve birbirleriyle nasıl ilişkili olduklarını söyleyemeyiz.

Kapsüller, CNN'in avantajını korumaya ve bu dezavantajı iki şekilde düzeltmeye çalışır;

  1. Değişmezlik: bundan alıntı kağıdı

Kapsül düzgün çalıştığında, görsel varlığın mevcut olma olasılığı yerel olarak değişkendir - varlık kapsül tarafından kapsanan sınırlı alan içindeki olası görünümlerin manifoldu üzerinde ilerledikçe değişmez.

Başka bir deyişle, kapsül, tıpkı ağız veya burun gibi aradığımız belirli bir özelliğin varlığını hesaba katar. Bu özellik, kapsüllerin, CNN'lerde olduğu gibi, çevirinin değişmez olmasını sağlar.

  1. Eşdeğerlik: özellik çevirisini değişmez yapmak yerine , kapsül çeviriyi eşdeğer veya bakış açısı eşdeğeri yapar. Başka bir deyişle, özellik görüntüde hareket ettikçe ve konumunu değiştirdikçe, özellik vektörü gösterimi de onu denk yapan şekilde değişecektir. Kapsüllerin bu özelliği, başlangıçta bahsettiğim maksimum havuz katmanlarının dezavantajını çözmeye çalışır.
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.