Rastgele çekimlere dayanan (kaç tane ayrımcı Derin Sinir Ağına (DNN) karşı eğitildikleri) yinelemeli algoritmalar bağlamında değiştirme şemaları olan ve olmayan şemaların iyi bir teorik analizi burada bulunabilir
Kısacası, örnekleme çıkıyor olmadan değiştirilmesi, örnekleme daha hızlı yakınsama yol açar ile değiştirilmesi.
Burada sağladıkları oyuncak örneğine dayanarak kısa bir analiz yapacağım: Diyelim ki aşağıdaki objektif işlevi optimize etmek istiyoruz:
xopt=argminx12∑i=1N(x−yi)2
burada hedef . Bu örnekte, y i'nin N etiketleri göz önüne alındığında , optimal x için çözmeye çalışıyoruz .yi∼N(μ,σ2)xNyi
Tamam, bu yüzden doğrudan yukarıdaki en uygun için çözecek olsaydık, burada kayıp fonksiyonunun türevini alır, 0'a ayarlar ve x için çözerdik . Yukarıdaki örneğimiz için kayıpxx
L=12∑i=1N(x−yi)2
ve ilk türev:
δLδx=∑i=1N(x−yi)
Ayar 0 ve çözme içinxverimleri:δLδxx
xopt=1N∑i=1Nyi
Başka bir deyişle, optimum çözüm y'nin tüm örneklerinin örnek ortalamasından başka bir şey değildir .Ny
Şimdi, yukarıdaki hesaplamayı bir kerede gerçekleştiremeseydik, bunu aşağıdaki gradyan iniş güncelleme denklemi aracılığıyla tekrar tekrar yapmamız gerekirdi:
xi=xi−1−λi∇(f(xi−1))
ve basitçe terimlerimizi buraya eklemek:
xi=xi−1−λi(xi−1−yi)
Yukarıdaki tüm için çalıştırırsak . . . N , o zaman etkili bir şekilde bu güncelleştirmeyi performans olmadan değiştirilmesi. O zaman soru, x'in optimum değerini bu şekilde elde edebilir miyiz ? ( X'in optimal değerinin y'nin örnek ortalamasından başka bir şey olmadığını unutmayın ). Λ i = 1 / i'ye izin verirseniz cevap evettir . Görmek için bunu genişletiyoruz:i∈1,2,...Nxxyλi=1/i
xi=xi−1−λi(xi−1−yi) xi=xi−1−1i(xi−1−yi) xi=ixi−1−(xi−1−yi)i xi=(i−1)xi−1+yii ixi=(i−1)xi−1+yi
i=1i=2i=N, we would have performed our updates without replacement, and our update formula gives us the optimal solution of x, which is the sample mean!
NxN=(N−1)xN−1+yN==>xN=1N∑i=1Nyi=μ
In contrast however, if we actually drew with replacement, then while our draws would then be truly independent, the optimized value xN would be different from the (optimal) mean μ, and the square error would be given by:
E{(xN−μ)2}
which is going to be a positive value, and this simple toy example can be extended to higher dimensions. This has the consequence that we would want to perform sampling without replacement as a more optimal solution.
Hope this clarifies it some more!