“Neredeyse tüm yerel minimumların küresel optimuma çok benzer bir fonksiyon değerine sahip olduğunu” anlamak


45

Bir de son blog yazısı Rong Ge tarafından, o söyleniyordu:

Derin ağları öğrenmek de dahil olmak üzere birçok problem için, yerel minimumun hemen hemen tümünün global optimum ile çok benzer bir fonksiyon değerine sahip olduğuna ve bu nedenle yerel bir minimum bulmanın yeterince iyi olduğuna inanılmaktadır.

Bu inanç nereden geliyor?


14
Bu ampirik bir bulgu değilse şaşırırım.
usεr11852, Reinstate Monic

Yanıtlar:


69

Yeni bir makale Çok Katmanlı Ağların Kayıp Yüzeyleri bunun için bazı olası açıklamalar sunar. Özetlerinden (kalın benimdir):

"Hem benzetilmiş tavlama hem de SGD'nin düşük kritik noktaların bandına yaklaştığını ve tüm kritik noktaların, test hatası ile ölçülen yüksek kalitede yerel minimaların olduğunu varsayıyoruz. Bu, büyük ve küçük boyutlu ağlar arasındaki büyük farkı vurgulamaktadır. Son derece düşük kalitedeki yerel minimenin sıfır olma ihtimalinin geri kazanılma olasılığına sahip olmadığı durumlarda. Sonunda, ağ büyüklüğü arttıkça küresel minimumun geri kazanılmasının zorlaştığını ve pratikte küresel minimumun aşırı sıkıntıya yol açtığı için önemsiz olduğunu kanıtlıyoruz . ”

Derin öğrenmede etkili olan birçok insan (Yann LeCunn ve Yoshua Bengio'ya bir kaç isim) ve bazı araştırmacılar matematiksel açıdan daha çok geliyorlar (Rong Ge ve diğer Sanjeev Arora ortakları) bu fikirleri tartışıyor ve araştırıyorlar.

Yukarıda referans verilen makalede, ağlar daha gizli birimlere sahip olduklarından, yerel minima değerlerinin bantlanma / konsantrasyon fenomenini gösteren Şekil 3'e bakınız. Bantlama / konsantrasyon, daha derin veya daha büyük modeller için, yerel bir minimumun “yeterince iyi” olduğuna dair bazı deneysel kanıtları temsil eder, çünkü kayıp değerleri kabaca aynıdır. Ve en önemlisi, model karmaşıklaştıkça küresel asgariye daha yakın bir kayıpları var (bu durumda daha geniş, ancak pratikte daha derin).

Dahası, küresel bir küçültücüye yerel bir minimumdan ulaşmanın katlanmaya devam edebileceğini göstermek için, sadece bir model olduğunu ve mutlaka gerçek resmin göstergesi olmadıklarını belirten bir cam modeli kullanıyorlar:

“Daha düşük bir yalan söyleme minimumunu bulmak için bir eyer noktasından geçmeliyiz. Bu nedenle, en azından muhtemelen alabilecek bir yol bulma şansına sahip olmak için eşit miktarda eyer noktasının olduğu seviyeye çıkmalıyız. Bizi başka bir yerel asgariye indirelim. Bu süreç katlanarak uzun zaman alıyor, bu yüzden pratikte global asgari sayıyı bulmak mümkün değil. ”

Rong Ge araştırması, eyer noktalarının kırılması etrafında toplanmıştır. Yoshua Bengio ve ortakları oldukça cesur bir Saddle Point Hipotezi oluşturdular:

Burada, istatistiksel fiziğin, rastgele matriks teorisinin, sinir ağ teorisinin ve deneysel kanıtların sonuçlarına dayanarak, daha derin ve daha derin bir zorluğun, özellikle pratik ilginin yüksek boyutlu problemlerinde, yerel minimadan değil, eyer noktalarının çoğalmasından kaynaklandığını iddia ediyoruz. . Bu tür eyer noktaları, öğrenmeyi önemli ölçüde yavaşlatabilen ve yerel asgari mevcudiyetinin aldatıcı izlenimini veren yüksek hata yaylaları ile çevrilidir.

burada kaynak: yüksek boyutlu dışbükey olmayan optimizasyonda eyer noktası problemini tanımlamak ve saldırmak.

Bir dereceye kadar, yukarıdaki iki yaklaşım tam olarak aynı değildir (Eyer Noktası Hipotezi, gerçekten yerel bir minimenin ne olduğunu ve çok uzun bir plato bölgesi olan, sadece zayıf şartlara sahip bir eyer noktasının ne olduğunu sorgulayabilir). Eyer Noktası Hipotezinin ardındaki fikir, yakınsama potansiyelini hızlandırmak ve hatta belki de küresel optimum düzeye ulaşmak için sele noktalarını, örneğin Bengio makalesinden Saddle-Free Newton'u kırmak için optimizasyon yöntemleri tasarlamanın mümkün olmasıdır. İlk Çok Katmanlı Zarar Yüzeyi makalesi, küresel olarak optimum olana ulaşmakla gerçekten ilgilenmiyor ve aslında bazı zayıf donanım özelliklerine sahip olduğuna inanıyor. İlginçtir ki, her iki makale de istatistiksel fizik ve spin-cam modellerinden fikirleri kullanır.

Ancak, her iki makalenin de küresel küçültücüye ulaşmak için eyer noktalarının optimizasyon zorluğunun üstesinden gelmesi gerektiğine inanmasıyla ilgili. İlk makale sadece yerel minimumun yeterince iyi olduğuna inanıyor.

Bazı 2. derece eğrilik özelliklerini tahmin edebilen momentum yöntemlerinin ve diğer yeni optimizasyon algoritmalarının eyer noktalarından kaçıp çıkamayacağını merak etmek doğru olur. Alec Radford tarafından burada ünlü bir animasyon .

Sorunuzu cevaplamak için: "bu inanç nereden geliyor" Ben şahsen farklı ağırlıklar öğrenmek için farklı rasgele tohumlar kullanmanın mümkün olduğu gerçeğinden geldiğini düşünüyorum, ancak karşılık gelen ağlar benzer nicel performansa sahiptir. Örneğin, Glorot ağırlık başlatması için iki farklı rasgele tohum ayarlarsanız, muhtemelen farklı ağırlıklar öğreneceksiniz, ancak benzer optimizasyon yöntemleri kullanarak eğitim alırsanız, ağlar benzer performansa sahip olacaktır. Yaygın bir folklor inancı, optimizasyon manzarasının bir yumurta kartonununkine benzer olduğu, buradaki bir başka iyi blog yazısı: Daha fazla yerel minima değil mi? yumurta-karton analojisi ile.

Düzenleme: Sadece yumurta kartonu analojisinin doğru olmadığı konusunda net olmak istedim, aksi halde momentum veya daha ileri optimizasyon tekniklerine gerek kalmayacaktı. Ancak SGD'nin, belki de eyer noktalarının varlığından dolayı SGD + Momentum veya daha modern optimizasyon algoritmaları kadar iyi performans göstermediği bilinmektedir.


14
+1 Etkileyici bir şekilde bilgilendirici ve otoriter bir cevap - birkaç kolay anlaşılan paragrafta, önemli bir alt alandaki fikirleri ve mevcut yönleri yakaladığı görülüyor.
whuber

Cevabınız için teşekkür ederim. Yann LeCun’dan bahsettiğinizden beri, belki de onun veya bu fikirleri tartışan özel bir referansı işaret edebilir misiniz?
John Donn

2
Hey John: Yazıdaki atıfta bulunduğum Çok Katmanlı Ağların Kayıp Yüzeyi makalesi, Yann tarafından yazılmıştır. Yann'ın birlikte yazdığı benzer bir başka makale , yüksek boyutlu manzaralar üzerine yapılan keşiflerdir . İki makale oldukça benzer, ilk başta referans aldığım kitap daha popüler görünüyor.
Indie AI

"Artık yerel minima yok" bağlantısı kesildi. Hızlı bir google araması sayesinde, atıfta bulunduğu blog gönderisini bulamadım. Blog yazısı çevrimdışı mı? Ya da basitçe taşındı?
LMB
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.