Uygulamada derin öğrenmenin darboğazı


9

Çok sayıda derin öğrenme belgesini okuduktan sonra, bir tür kaba duygu, normalden daha iyi performans elde etmek için ağın eğitilmesinde çok sayıda hile olması. Bir endüstri uygulaması perspektifinden bakıldığında, google veya facebook gibi büyük teknoloji şirketlerindeki seçkin araştırma grupları dışında bu tür numaralar geliştirmek çok zordur. O zaman pratikte derin öğrenme algoritmalarını uygulamanın en iyi yolu nedir? Herhangi bir düşünce ve öneriniz çok takdir edilecektir.

Yanıtlar:


9

Doğru, performansı artırmak için kullanılan bazı ayrıntılar hile olarak kabul edilir ve bu hilelerin verileriniz ve ağınız için aynı iyileştirmeyi sağlayıp sağlamadığını her zaman bilemezsiniz.

Kesinlikle ihtiyacınız olacak bazı şeyler:

  • Veri , bir sürü
  • GPU'lar , denemeleri daha hızlı gerçekleştirmenize ve daha kısa sürede daha fazla şey denemenize olanak tanır.
  • Öğrenme eğrisi analizi. Sonunda test setindeki performansa gelir, ancak hem tren hem de test metriklerine bakarak kötü performansın nedenlerini belirleyebilirsiniz. Güçlü önyargı? Çok fazla gizli düğümden fazla takmak mı?
  • Aktivasyon fonksiyonu . Hangi tür aktivasyon fonksiyonuna ihtiyacınız olduğunu bilmenin bir hilesi olduğunu düşünmüyorum. ReLU, sigmoidler ve tanh gibi doygun olmamaları nedeniyle kritik bir özelliğe sahiptir. ReLU'ya sahip bir nöron daha uzun olasılık benzeri bir çıktıya sahip olacaktır, ancak yine de orta seviye katmanlardaki nöronlar için buna ihtiyacınız yoktur. Elde ettiğiniz avantaj, degradelerin yok olmasını veya patlamasını azaltmak ve yakınsamayı hızlandırmaktır.
  • Düzenleme . Hile olarak uygulanabilir, ancak ana akım derin öğrenme kütüphanelerinden herhangi birini kullanıyorsanız, bırakma yoluyla düzenlileştirme için hazır uygulamalar alabilirsiniz.
  • Veri büyütme. Temel olarak, manuel açıklama eklemenin ek maliyeti olmadan veri kümenizi sentetik olarak genişletiyorsunuz. Önemli olan, verileri anlamlı hale getiren dönüşümlerle arttırmaktır. Böylece ağ, test aşamasında veya ürüne dağıtıldığında karşılaşabileceği verilerin varyantlarını görebilir. Görsel veriler için yatay çevirme önemsizdir ve çok fazla kazanç sağlar. Titreşim muhtemelen veri türüne ve ne kadar gürültülü olduğuna bağlıdır.
  • Hiperparametre keşiflerine dalmak sinir bozucu olabilir. Küçük ağlarla ve basit eğitim prosedürleriyle başlayın. Daha küçük ağların eğitimi daha hızlıdır. Aşırı sığdırma belirtileri gördüğünüzde daha fazla katman ekleyin.
  • İyi başlatma . Rastgele başlatma, ağın yakınsama yeteneğini ölçmek için uygundur, ancak en iyi performansı vermeyebilir. Aynı zamanda, yinelemeyi sürdürmek ağın eğitim verilerine fazla sığmasına yol açabilir. Mümkünse, önceden bir temsil öğrenmiş olan önceden eğitilmiş bir ağ kullanın ve veri kümenize ince ayar yapın. Gözetimsiz ön eğitim gitmek için başka bir yoldur ve denetimli eğitim prosedürünün ağırlık alanında çok daha umut verici bir pozisyondan başlamasına izin verebilir.
  • İnceleme Altınahileler. Hile gerçekten ne yapar anlamak. Bir ağın performansını artırmak için kullanılan küçük bir ayrıntıyı açıklayan bir makale, bu yeni konuya odaklanacaktır. Makale yazarların üzerinde çalıştığı bir dizi projenin parçası olabilir. Hile bağlamı her zaman net olmayabilir, ancak yazarlar için bu bir hile değil, sahip oldukları bir sorunu çözen bir tekniktir. Bazen bir teknik ortaya çıkar ve bir numara olarak kabul edilir ve daha sonra birisi etkisini analiz eder ve işlevini açıklar. Örneğin, bu hile daha fazla insanın aşina olduğu L2 düzenine eşittir. Bu yeni tekniği denememize veya zaten bildiğimiz L2 düzenine bağlı kalmamıza karar verebiliriz. Bu hilelerin çoğu, aşırı uyum riski gibi derin öğrenme problemlerini çözmeye çalışır. maliyetli hesaplamalar, aşırı parametrelendirme ve aşırı yedek ağırlıklar. Bu hilelerin gerçekten ne yaptığını anlamak için zaman ayırmaya değer. Çözmeye çalıştıkları sorunu anlayarak farklı hilelerin uygulanabilirliğini değerlendirebilir ve sahip olabileceğimiz kısıtlamalarla iyi çalışanı seçebiliriz (örneğin, küçük hesaplama gücü, küçük veri kümesi)

2

İşte ilginç bir kitap Neural Networks: Tricks of the Trade , kitabın güncellenmiş 2012 versiyonu. Sinir ağlarının öncülerinden bazıları tarafından çok sayıda makale.

ypx, eğitim ile ilgili birçok pratik konuya güzel bir şekilde değindi, bu yüzden ortaya çıkardığınız diğer konulara değinmek için: elit endüstriyel laboratuvarların çoğu hala sonuçlarını yayınlıyor. Örneğin Microsoft Research'ün ekibi yeni ImageNet 2015'i kazandı ve yeni derin ağ modüllerini açıklayan teknik bir rapor yayınladılar: Görüntü Tanıma için Derin Artık Öğrenme , Google'ın ekibi de Inception mimarisini yayınladı, Konvolüsyonlarla Daha Derinleşiyor . Önemsiz bir dereceye kadar, makine öğreniminde (şimdilik) büyük yenilikleri paylaşma kültürü hala var. Muhtemelen anahtar verilere erişim olduğundan. Google ve Facebook, sahip olmadığımız verilere erişebilir. Ham algoritmik yeniliğe ne kadar kredi verildiğini ve büyük miktarda veriye ne kadar gittiğini söylemek zor.

Gelecekte ne olacak? Söylemesi zor. Bu veri odaklı şirketlerin ne kadar değerli hale geldiği ve piyasanın rekabet gücü ne olursa olsun birçok insanın gündeme getirdiği bir konu. Ancak şimdilik endüstriyel araştırma laboratuvarlarının paylaştıkları ve paylaşmadıkları arasında yeterince iyi bir denge olduğunu düşünüyorum. Tam kod uygulamalarını paylaşmadıklarını anlıyorum. Ancak bazı yeni yenilikleri paylaşıyorlar.

Önemli sonuçlar yayınlayan ve okuyan, okuyan, okuyan araştırmacılar bulun. Yann LeCun'un Reddit'teki AMA'sına inandığına inatçı bir okuyucu olduğunu söyledi. Bunun en önemli şey olduğuna inanıyorum. Ve pratik olduğu ölçüde, kriterlerini yeniden oluşturmaya veya yöntemlerini bütçeniz dahilindeki bir veri kümesine uygulamayı deneyin.

Nerede olursanız olun ya da hayattaki istasyonunuz ne olursa olsun, bu keskin kalmanın ve becerilerinizi geliştirmeye devam etmenin en iyi yoludur. Obur bir okuyucu olun ve bir şeyler uygulayın ve sezgi oluşturun. Şahsen ImageNet yarışmalarına katılacak kaynaklara sahip değilim, ancak en iyi performans gösteren ImageNet grubunun tüm makalelerini okumak bana çok yardımcı oldu.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.