Makine öğrenmesi çoğu zaman birçok yerel minimuma sahip olan bir fonksiyonun optimizasyonu ile ilgilidir. Gizli birimleri olan feedforward sinir ağları buna iyi bir örnektir. Bu işlevler kesikli veya sürekli olsun, küresel bir asgari seviyeye ulaşan ve durmayan bir yöntem yoktur. Tek boyutlu ve pürüzsüz bile olsa (sonsuz sayıda türev vardır) sürekli bir fonksiyonun global minimumunu bulmak için genel bir algoritma olmadığını kanıtlamak kolaydır. Uygulamada, sinir ağlarını öğrenmek için tüm algoritmalar yerel bir asgariye sıkışmış. Bunu kontrol etmek kolaydır: rastgele bir sinir ağı oluşturun, rastgele girdilere verdiği tepkileri büyük bir set haline getirin, sonra cevapları kopyalamak için aynı mimariye sahip başka bir sinir ağı öğrenmeye çalışın. Mükemmel bir çözüm mevcut olsa da, geri yayılım ya da başka bir öğrenme algoritması onu keşfedemez.
Simüle edilmiş tavlama veya genetik algoritmalar gibi bazı öğrenme yöntemleri, birçok yerel asimi araştırır. Sürekli işlevler için en yakın yerel minimum değeri bulan degrade iniş gibi yöntemler vardır. Çok daha hızlılar, bu yüzden pratikte yaygın olarak kullanılıyorlar. Ancak yeterli zaman verildiğinde, eski yöntem grubu, eğitim seti hatası açısından daha sonradan daha iyi performans gösterir. Ancak, makul zaman kısıtlamalarıyla, gerçek dünya problemleri için, ikinci grup genellikle daha iyidir.
Lojistik regresyon gibi bazı modellerde, bir yerel minimum vardır, fonksiyon dışbükeydir, minimizasyon minimuma yaklaşır, ancak modellerin kendileri basittir.
Acı gerçek bu.
Ayrıca yakınsama kanıtının ve en iyi çözüme yakınsama kanıtının iki farklı şey olduğuna dikkat edin. K-aracı algoritması buna bir örnektir.
Son olarak, bazı modeller için nasıl öğreneceğimizi bilmiyoruz. Örneğin, çıktı girdilerin keyfi bir şekilde hesaplanabilir bir işlevi ise, makul bir sürede bu işlevi uygulayan bir Turing veya eşdeğer bir makine bulan iyi algoritmalar bilmiyoruz. Örneğin, eğer f (1) = 2, f (2) = 3, f (3) = 5, f (4) = 7, ..., f (10) = 29 (on ilk üs) Asal sayılar kavramını zaten bilmediği sürece, makul bir zamanda, f (11) = 31 olduğunu tahmin edebilecek herhangi bir öğrenme algoritması bilmiyor.