n = 4
Bununla birlikte, daha fazla verinin yardımcı olmadığı ve hatta zarar verebileceği bir durum, ek egzersiz verilerinizin gürültülü olması veya tahmin etmeye çalıştığınız şeyle eşleşmemesi durumudur. Bir keresinde, sesli bir restoran rezervasyon sistemine farklı dil modellerini [*] taktığım bir deney yaptım. Eğitim verilerinin miktarının yanı sıra alaka düzeyini de değiştirdim: bir uçta, masa rezervasyonu yapan kişilerin dikkatlice küratörlüğünü yapan küçük bir koleksiyonum vardı, başvurum için mükemmel bir eşleşme. Öte yandan, klasik edebiyatın büyük koleksiyonundan tahmin edilen bir modelim vardı , daha doğru bir dil modeli, ancak uygulamaya çok daha kötü bir eşleşme. Şaşırtıcı bir şekilde, küçük ama ilgili model , büyük ama daha az ilgili modelden büyük ölçüde daha iyi performans gösterdi.
Çift iniş
adı verilen şaşırtıcı bir durum, eğitim setinin boyutu model parametre sayısına yakın olduğunda da ortaya çıkar. Bu durumlarda, ilk önce egzersiz setinin boyutu arttıkça test riski azalır, biraz daha fazla egzersiz verisi eklendiğinde geçici olarak
artar ve sonunda egzersiz seti büyümeye devam ettikçe tekrar azalmaya başlar. Bu fenomen sinir ağı literatüründe 25 yıl bildirilmiştir (bakınız Opper, 1995), ancak modern ağlarda da ortaya çıkar (
Advani ve Saxe, 2017 ). İlginç bir şekilde, bu doğrusal bir regresyon için bile olsa, SGD tarafından uygun olsa da (
Nakkiran, 2019). Bu fenomen henüz tam olarak anlaşılamamıştır ve büyük ölçüde teorik ilgi alanıdır: Kesinlikle daha fazla veri toplamak için bir neden olarak kullanmam (n == p ise eğitim seti boyutuyla uğraşabilirim ve performans beklenmedik bir şekilde kötüyse) ).
P( wn= 'hızlı', wn + 1= 'kahverengi', wn + 2= 'tilki' )