Vapnik-Chervonenkis (VC) -Boyut sinir ağları için, formül arasında değişmektedir için ile, en kötü durumda, kenarları sayısıdır ve düğüm sayısıdır. Güçlü bir genelleme garantisine sahip olmak için gereken eğitim örneklerinin sayısı VC boyutuyla doğrusaldır.
Bu, başarılı derin öğrenme modellerinde olduğu gibi, milyarlarca kenarı olan bir ağ için, eğitim veri setinin en iyi durumda, en kötü durumda katrilyona kadar milyarlarca eğitim örneğine ihtiyaç duyduğu anlamına gelir. En büyük eğitim setlerinin şu anda yaklaşık yüz milyar örneği var. Yeterli eğitim verisi olmadığı için, derin öğrenme modellerinin genelleme olasılığı düşüktür. Bunun yerine, eğitim verilerini çok fazla kullanıyorlar. Bu, modellerin, makine öğrenmesi için istenmeyen bir özellik olan eğitim verilerine benzer olmayan veriler üzerinde iyi performans göstermeyeceği anlamına gelir.
Derin öğrenmenin genelleştirilememesi nedeniyle, VC boyutsal analizine göre, derin öğrenme sonuçları neden bu kadar karmaşık? Yalnızca bazı veri kümelerinde yüksek bir doğruluğa sahip olmak, kendi başına çok şey ifade etmez. VC boyutunu önemli ölçüde azaltan derin öğrenme mimarileri hakkında özel bir şey var mı?
VC boyut analizinin konuyla ilgili olduğunu düşünmüyorsanız, lütfen derin öğrenmenin genel olduğunu ve fazla uydurmadığına dair kanıt / açıklama sağlayın. Yani iyi hatırlama VE hassaslık var mı, yoksa sadece iyi hatırlama mı? % 100 hatırlama,% 100 hassasiyet gibi başarmak için önemsizdir. Her ikisini de% 100'e yakın almak çok zor.
Aksine bir örnek olarak, burada derin öğrenmenin fazla yorucu olduğunun kanıtı . Belirleyici bir modelin deterministik / stokastik gürültü içerdiği için kandırılması kolaydır. Bir üst donanım örneği için aşağıdaki resme bakın.
Ayrıca, test verilerinde iyi bir doğruluk olmasına rağmen, üst üste binme modelindeki sorunları anlamak için bu soruya verilen daha düşük dereceli cevaplara bakınız .
Bazıları düzenlileşmenin büyük bir VC boyutu sorununu çözdüğünü belirtti . Daha fazla tartışma için bu soruya bakın .