Bir kişi (teorik olarak) bir sinir ağını ağırlıktan daha az eğitim örneği ile eğitebilir mi?


12

Her şeyden önce: Biliyorum, sinir ağını eğitmek için genel bir örneklem sayısı gerekmiyor. Bu, görevin karmaşıklığı, verilerdeki gürültü vb.Gibi çok fazla faktöre bağlıdır. Ve ne kadar çok eğitim örneğim olursa, ağım o kadar iyi olur.

Ama merak ediyordum: Eğer görevimin yeterince basit olduğunu varsayarsam, teorik olarak ağırlıklardan daha az eğitim örneği olan bir sinir ağını eğitmek mümkün mü? Bunun işe yaradığı bir örneği bilen var mı? Yoksa bu ağ neredeyse kesinlikle kötü performans gösterecek mi?

Örneğin, polinom regresyonunu düşünürsem, sadece 4 veri noktasına 4 derecelik bir polinom (yani 5 serbest parametre ile) sığdıramam. Sinir ağları için, ağırlık sayımı serbest parametre sayısı olarak değerlendiren benzer bir kural var mı?


Evet: eğer ağırlıklar rastgele başlatılırsa, sıfır eğitim örneğiyle bile mükemmel şekilde eğitilmiş bir sinir ağı elde etmek teorik olarak mümkündür. (Bir yorum olarak yayınlamak, bir cevap değil, bildiğim gibi, bu gerçekten sorduğunuz şey değil.)
Darren Cook

Yanıtlar:


17

İnsanlar bunu her zaman büyük ağlarla yaparlar. Örneğin, ünlü AlexNet ağında yaklaşık 60 milyon parametre bulunurken, başlangıçta eğitildiği ImageNet ILSVRC'de sadece 1,2 milyon görüntü var.

5 parametreli bir polinomu 4 veri noktasına uymamanızın nedeni, her zaman veri noktalarınıza tam olarak uyan, ancak başka yerlerde saçma şeyler yapan bir işlev bulabilmesidir. Eh, hem edildi geçenlerde kaydetti AlexNet ve benzer ağlar olabilir keyfi rastgele etiketler ImageNet uygulanan uyacak ve sadece onların eğitim noktalarında daha çok fazla parametre var muhtemelen çünkü hepsini ezberlemek. Ancak, stokastik gradyan iniş optimizasyon süreci ile birleştirilen ağın öncelikleri ile ilgili bir şey, pratikte, bu modellerin gerçek etiketleri verdiğinizde yeni veri noktalarına genelleme yapabileceği anlamına gelir. Bunun neden olduğunu hala anlamıyoruz.


2
+1. Bunu polinom regresyonu ile karşılaştırma için örneklerin oldukça boyutlu olduğunu da düşünebilir miyim. ImageNet'teki ortalama görüntü çözünürlüğü yaklaşık 469x387 pikseldir, 256x256'ya kırpılırsa, 1.2 milyon 65k giriş parametresine sahibiz. polinom regresyon vakasına göre.
jjmontes

3
@jjmontes true, ancak asıl gizlilik, bu ağların hem ezberleme hem de genelleme yapma kapasitesine sahip olmasıdır (iyi). Başka bir deyişle, eğitim verilerini rastgele etiketlerle parçalayabilir ve yine de genelleştirebilirler. Bu geleneksel ML yöntemlerinde görülen bir şey değil.
Amelio Vazquez-Reina

6

Belirsiz sistemler yalnızca verilerden başka bir kısıtlama getirmezseniz yetersiz olarak tanımlanır. Örneğinize bağlı kalmak, 4 derecelik bir polinomu 4 veri noktasına takmak, verilerle sınırlandırılmamış bir serbestlik derecesine sahip olduğunuz anlamına gelir, bu da sizi eşit derecede iyi çözümlerden oluşan bir çizgi (katsayı alanında) bırakır. Ancak, sorunu izlenebilir hale getirmek için çeşitli düzenleme tekniklerini kullanabilirsiniz. Örneğin, katsayıların L2 normuna (yani karelerin toplamı) bir ceza uygulayarak, her zaman en yüksek uygunluğa sahip tek bir çözüm olmasını sağlarsınız.

Sinir ağları için düzenlileştirme teknikleri de mevcuttur, bu nedenle sorunuzun kısa cevabı 'evet, yapabilirsiniz'. Özellikle ilgilenilen, ağırlıkların her bir güncellemesi için, ağdan belirli bir düğüm alt kümesini rastgele 'bıraktığınız "düşüş" adı verilen bir tekniktir. Yani, öğrenme algoritmasının bu özel tekrarı için, bu düğümlerin yokmuş gibi davranıyorsunuz. Atma olmadan, net, birlikte çalışan tüm düğümlere bağlı olan girdinin çok karmaşık temsillerini öğrenebilir. Bu tür temsillerin, genelleme modelleri bulmak yerine, eğitim verilerini 'ezberlemesi' muhtemeldir. Bırakma, ağın eğitim verilerine sığdırmak için tüm düğümleri aynı anda kullanmamasını sağlar; bazı düğümler eksik olsa bile verileri iyi temsil edebilmelidir,

Ayrıca, bırakma kullanırken, eğitim sırasında herhangi bir noktadaki özgürlük derecelerinin aslında egzersiz örneği sayısından daha küçük olabileceğini unutmayın, ancak toplamda egzersiz örneklerinden daha fazla ağırlık öğreniyor olsanız da.


2
Bu, açık düzenlileştirmenin derin ağlarda oynadığı rolün üstesinden gelebilir: Cevabımda bahsettiğim bu makale , ağın ne kadar ezberleyebileceği üzerinde küçük etkileri olan bırakma ve diğer düzenlenme biçimlerini gösteriyor. Bununla birlikte, temel hikayeniz doğru olabilir, ancak oyundaki ana düzenlilik SGD'nin örtük olanıdır; bu hala biraz karanlık.
Dougal
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.