Aşağıdaki durumda olduğumuzu varsayalım. Bazı verilerimiz var , burada her bir sayı veya vektör olabilir ve en küçük kareler anlamında ilişkisine yaklaşan bir işlevini belirlemek istiyoruz. hata:{xben,yben}xbenff(xben) ≈yben
12Σben(yben- f(xben))2
küçük.
Şimdi, soru alanının olmasını istediğimiz konuya giriyor . Alan için dejenere bir seçim, eğitim verilerimizdeki noktalardır. Bu durumda, sadece istenen alanın tamamını kapsayan tanımlayabilir ve onunla yapılabilir. Bu cevaba ulaşmanın bir yolu, alan olarak bu ayrık alanla gradyanlı iniş yapmaktır. Bu, bakış açısından biraz değişiklik gerektirir. Kaybı doğru noktasının ve tahmininin bir fonksiyonu olarak görelim (şimdilik, bir fonksiyon değil, sadece tahminin değeri)ff(xben) = yy ff
L(f;y)=12(y−f)2
ve daha sonra tahmine göre gradyanı al
∇fL(f;y)=f−y
Daha sonra gradyan güncelleştirme, bir başlangıç değerinden başlayarak olany0
y1=y0−∇f(y0,y)=y0−(y0−y)=y
Bu nedenle, bu kurulumla mükemmel tahminimizi degrade bir adımda kurtarıyoruz, ki bu güzel!
Buradaki kusur, elbette, eğitim veri noktalarımızdan çok daha fazla tanımlanmasını istiyoruz . Bunu yapmak için, eğitim veri setimiz dışındaki hiçbir noktada kayıp fonksiyonunu veya degradesini değerlendiremediğimiz için birkaç taviz vermeliyiz. f
Büyük fikir, ye zayıf bir şekilde yaklaşmaktır . ∇L
Start
bir ilk tahminle , neredeyse her zaman basit bir sabit fonksiyon , bu her yerde tanımlanır. Şimdi için başlangıç tahminini kullanarak egzersiz verilerindeki kayıp fonksiyonunun gradyanını değerlendirerek yeni bir çalışma veri kümesi oluşturun :ff(x)=f0f
W={xi,f0−y}
Now approximate
∇L zayıf öğrenciyi . Biz yaklaşım olsun Say . Veri bir uzantısı kazanmıştır şeklinde tüm alanda biz eğitim noktalarında kayıp hassasiyet olsa biz küçük öğrenen sığacak beri.WF≈∇LWF(X)
Finally
, tüm etki alanı üzerindeki gradyan güncellemesinde yerine kullanın :F∇Lf0
f1(x)=f0(x)−F(x)
Biz çıkmak , yeni bir yaklaşım biraz daha iyi, . ile ve tatmin olana kadar tekrarlayın.f1ff0f1
Umarım, gerçekten önemli olanın kaybın eğimine yaklaşmak olduğunu görürsünüz. En küçük karelerin en aza indirilmesi durumunda bu, ham artıklar biçimini alır, ancak daha karmaşık durumlarda bunu yapmaz. Makine hala geçerlidir. Antrenman verilerindeki kayıp ve kayıp derecesini hesaplamak için bir algoritma oluşturabildiği sürece, bu algoritmayı bu kaybı en aza indirgeyen bir işleve yaklaşmak için kullanabiliriz.