Çevrimiçi gradyanın yararlı olmasının nedeni, büyük ölçek uygulamaları içindir. Her durumda, şimdi onu uygulayan kütüphaneler var, bu yüzden onu programlamanıza gerek yok. İşlerin nasıl çalıştığını öğrenmek için iyi bir yoldur.
Büyük ölçekli makine öğrenimine ilk olarak bir mühendislik problemi olarak yaklaşıldı. Örneğin, daha büyük bir eğitim setinden yararlanmak için, bilinen bir makine öğrenme algoritmasını çalıştırmak için paralel bir bilgisayar kullanabilir veya bilinen bir makine öğrenme objektif işlevini optimize etmek için daha gelişmiş sayısal yöntemleri uyarlayabiliriz. Bu tür yaklaşımlar, bir kişinin istatistiksel yönleri, makine öğrenme sorununun hesaplama yönlerinden ayırabileceği cazibesine dayanmaktadır.
Bu çalışma, bu varsayımın yanlış olduğunu ve vazgeçmenin çok daha etkili öğrenme algoritmalarına yol açtığını göstermektedir. Yeni bir teorik çerçeve, yaklaşık optimizasyonun öğrenme algoritmaları üzerindeki etkisini dikkate almaktadır.
Analiz, küçük ölçekli ve büyük ölçekli öğrenme problemleri için farklı ödünleşmeler göstermektedir. Küçük ölçekli öğrenme problemleri olağan yaklaşım-tahmin dengesine tabidir. Büyük ölçekli öğrenme problemleri, temeldeki optimizasyon algoritmalarının önemsiz olmayan yollarla hesaplama karmaşıklığını içeren niteliksel olarak farklı bir dengeye tabidir. Örneğin, Stokastik Degrade İniş (SGD) algoritmaları vasat optimizasyon algoritmaları gibi görünmekle birlikte, büyük ölçekli öğrenme problemlerinde son derece iyi performans gösterdikleri gösterilmiştir.