İşte anlaşma:
Teknik olarak gerçek cümleler yazdınız (her iki model de yeterli parametre verildiğinde herhangi bir 'çok deli değil' işlevine yaklaşabilir), ancak bu cümleler sizi hiçbir yere götürmez!
Neden? Peki, evrensel yaklaşım teorisine veya bir sinir ağının ENOUGH nöronları varsa herhangi bir f (x) hesaplayabileceğine dair diğer resmi kanıtlara daha yakından bakın.
Gördüğüm tüm bu tür kanıtlar sadece bir gizli katman kullanıyor.
Biraz sezgi için http://neuralnetworksanddeeplearning.com/chap5.html buraya hızlıca göz atın . Sadece bir katman kullanıyorsanız, bir anlamda ihtiyaç duyulan nöron sayısının katlanarak arttığını gösteren çalışmalar vardır.
Yani, teoride haklısın, pratikte, sonsuz miktarda belleğin yok, bu yüzden gerçekten 2 ^ 1000 nöron ağı eğitmek istemiyorsun, değil mi? Sonsuz miktarda hafızaya sahip olsanız bile, bu ağ kesinlikle fazla olacaktır.
Bana göre, ML'nin en önemli noktası pratik nokta! Biraz genişletelim. Buradaki asıl büyük sorun, polinomların eğitim seti dışında çok hızlı bir şekilde nasıl arttığı / azaldığı değil. Bir şey değil. Hızlı bir örnek olarak, herhangi bir resmin pikseli çok özel bir aralıktadır (her RGB rengi için [0,255]), böylece yeni örneklerin egzersiz seti değer aralığınızda olacağından emin olabilirsiniz. Hayır. Önemli olan: Bu karşılaştırma (!) İle başlamak için yararlı değildir.
MNIST ile biraz denemenizi ve tek bir katman kullanarak elde edebileceğiniz gerçek sonuçları görmeyi denemenizi öneririm.
Pratik ağlar birden fazla gizli katman, bazen düzinelerce (daha iyi, Resnet daha fazla ...) katman kullanır. Bir neden için. Bu sebep kanıtlanmamıştır ve genel olarak, bir sinir ağı için bir mimari seçmek sıcak bir araştırma alanıdır. Başka bir deyişle, hala daha fazla bilgi sahibi olmamız gerekirken, birçok veri seti için karşılaştırdığınız her iki model de (lineer regresyon ve sadece bir gizli katmanla NN), hiçbir şekilde yararlı değildir!
Bu arada, ML'ye girmeniz durumunda, aslında mevcut bir 'araştırma alanı' olan PAC (muhtemelen yaklaşık olarak doğru) / VC boyutu olan başka bir işe yaramaz teorem var. Bunu bir bonus olarak genişleteceğim:
Evrensel yaklaşım temel olarak sonsuz miktarda nöron verildiğinde herhangi bir işleve (çok teşekkür ederim?) Yaklaşabileceğimizi belirtiyorsa, PAC'ın pratikte söylediği şey (pratikte!) modelimizdeki en iyi hipotezlere sahip olmak istiyoruz. Pratik bir ağ için gerekli örneklerin gerçek miktarını bazı okish olasılığı ile bazı pratik istenen hata oranı içinde hesaplamak kesinlikle komikti :) Evrendeki elektron sayısından daha fazlaydı. PS'yi artırmak için ayrıca örneklerin IID olduğu varsayılır (bu asla doğru değildir!).