Not: Bu cevap boyunca eğitim kaybının en aza indirilmesine atıfta bulunuyorum ve doğrulama kaybı gibi durdurma kriterlerini tartışmıyorum. Durdurma kriterlerinin seçimi, aşağıda açıklanan süreci / kavramları etkilemez.
Bir sinir ağı eğitim işlemi, bir işlev kaybı minimum değerini bulmak için , nöronlar arasındaki ağırlıktaki bir matris (veya birkaç matrisler temsil eder) ve eğitim veri kümesi temsil eder. Ben bir simge kullanmak bizim minimizasyonu olduğunu belirtmek için sadece ağırlıkları üzerinde meydana (olduğunu, aradığımız böyle iken minimize edilir) sabittir.GXX ℒ GW ℒ XLX( W)WXXLWWLX
Şimdi, eğer elementlerimiz olduğunu varsayarsak (yani, ağda ağırlıkları vardır), boyutlu bir alanda bir yüzeydir . Görsel bir analog vermek için sadece iki nöron ağırlığımız olduğunu düşünün ( ). O zaman kolay bir geometrik yoruma sahiptir: 3 boyutlu uzayda bir yüzeydir. Bu , ağırlıklarının herhangi bir matrisi için , kayıp fonksiyonunun üzerinde değerlendirilebilmesi ve bu değerin yüzeyin yüksekliği haline gelmesinden kaynaklanmaktadır.W P ℒ P + 1 P = 2 ℒ G XPWPLP+ 1P= 2LWX
Ancak dışbükeylik sorunu var; tarif ettiğim yüzey çok sayıda yerel minimaya sahip olacak ve bu nedenle gradyan iniş algoritmaları bu minimada "sıkışmış" olmaya yatkınken, daha derin / daha düşük / daha iyi bir çözüm yakınlarda olabilir. Bu oluşabilir muhtemeldir yüzeyi belirli bir sabit olduğundan, tüm eğitim tekrarlamalar üzerinde değişmez ; çeşitli özellikleri dahil olmak üzere tüm özellikleri statiktir.XXX
Buna bir çözüm, karıştırma ile birlikte mini parti eğitimidir. Belirli bir yineleme sırasında satırları karıştırıp yalnızca bir alt kümesi üzerinde eğitim yaparak, her yinelemeyle değişir ve aslında tüm eğitim yinelemeleri ve dönemleri boyunca iki yinelemenin tam olarak aynı üzerinde gerçekleştirilmemesi oldukça mümkündür. . Sonuç, çözücünün yerel bir minimumdan kolayca "sıçraması" dır. , eğitim mini grubu ile yineleme yerel bir minimumda sıkıştığını düşünün . Bu yerel minimum , belirli bir ağırlık değerinde değerine karşılık gelir ; bunaX i X i ℒ ℒ X i ( W i ) X i + 1 ℒ X i + 1 ( W i ) ℒ X i ( W i ) ℒ X i + 1 ℒ X i ℒ X W WXXiXiLLXi(Wi). Bir sonraki yinelemede, kayıp yüzeyinin şekli aslında değişir çünkü , yani dan çok farklı bir değer alabilir. ve yerel bir minimum karşılık gelmemesi oldukça olasıdır! Şimdi bir degrade güncellemesi hesaplayabilir ve eğitime devam edebiliriz. Açık olmak gerekirse: ın şekli - genel olarak - dan farklı olacaktır . Ben kayıp fonksiyonu bahsediyorum burada unutmayın bir eğitim seti üzerinde değerlendirilen ; tüm olası değerleri üzerinde tanımlanan tam bir yüzeydir.Xi+1LXi+1(Wi)LXi(Wi)LXi+1LXiLXW, bu kaybın (sadece bir skaler olan) belirli bir değeri için değerlendirilmesi yerine . Ayrıca, mini gruplar karıştırılmadan kullanılırsa, kayıp yüzeylerinin hala bir dereceye kadar "çeşitlendirilmesi" vardır, ancak çözücü tarafından görülen sınırlı sayıda (ve nispeten küçük) benzersiz hata yüzeyi olacaktır (özellikle, her grupta aynı mini gruplar kümesi - ve dolayısıyla kayıp yüzeyler).W
Kasten kaçındığım bir şey, mini parti boyutlarının tartışılmasıydı, çünkü bunun üzerinde bir milyon görüş var ve önemli pratik sonuçları var (daha büyük partilerle daha fazla paralellik elde edilebilir). Ancak, aşağıdakilerden bahsetmeye değer olduğuna inanıyorum. Çünkü her satır için bir değer hesaplayarak değerlendirilmektedir ağırlık matrisleri belirli bir ürün kümesi için (yani, bir değişmeli operatör ortalama ve toplanmasıyla veya alarak) sıralarının düzenlenmesi, hiçbir etkiye sahip tam kullanırken toplu degrade inişi (yani, her toplu iş tam olduğunda ve yinelemeler ve çağlar aynı şey olduğunda). X G X XLXWX X