Makine öğrenmesi teknikleri “yaklaşım algoritmaları” mı?


23

Son zamanlarda cstheory stackexchange üzerinde ML benzeri bir soru vardı ve Powell'ın yöntemini, gradyan inişini, genetik algoritmaları veya diğer "yaklaşım algoritmalarını" öneren bir cevap verdim . Bir yorumda, birisi bana bu yöntemlerin "yaklaşım algoritmaları" olmadığını ve "yaklaşım algoritmaları" olmadığını ve çoğu zaman teorik olarak en uygun duruma gelmediğini söyledi (çünkü "sık sık yerel minimaya takıldılar").

Diğerleri buna katılıyor mu? Ayrıca, araştırma alanımın büyük bir bölümünü keşfetmek için ayarlanmışlarsa (örneğin, parametrelerin / adım boyutlarının küçük ayarlanması) kurarlarsa, sezgisel algoritmaların teorik optimumlara yaklaşma garantisi verilebileceği anlaşılıyor. bunu bir gazetede görmedim. Bunun bir gazetede gösterildiğini veya kanıtlandığını bilen var mı? (eğer büyük bir algoritma sınıfı için değilse, belki küçük bir sınıf için NN'ler vs.)


Bu soru hakkında daha fazla düşündüğünüzde, ilgili / ilgili araştırma alanına yerel optimizasyon yöntemleri / yerel tür algoritmalarının üstündeki global optimizasyon yöntemleri / varyantları denir gibi gözüküyor, örneğin gradyan iniş ...
vzn

Yanıtlar:


29

Bence birçok önemli kavramı karıştırıyorsun. Birkaç şeyi açıklığa kavuşturmama izin verin:

  • Aday bir çözümü geliştirmek için yinelemeli olarak çalışan yöntemler olan metaheuristik yöntemler vardır. Buna örnek olarak tabu araştırması, benzetilmiş tavlama, genetik algoritmalar vb. Verilebilir. Bu yöntemlerin iyi çalıştığı pek çok durum varken, bu yöntemlerin ne zaman ve ne zaman işe yaradıklarına dair derin bir anlayış olmadığını gözlemleyin. Ve daha da önemlisi, çözüme ulaşamadıkları zaman, keyfi bir şekilde ondan uzak olabiliriz. Metaheuristik yöntemlerle çözülen problemler doğada ayrık olma eğilimindedir, çünkü sürekli problemlerin üstesinden gelmek için çok daha iyi araçlar vardır. Fakat her zaman ve sonra sürekli problemlerin meta-özelliklerini görüyorsunuz.

  • Sayısal optimizasyon yöntemleri vardır, bu topluluktaki insanlar, optimize edilecek olan fonksiyonun doğasını ve çözümün kısıtlamalarını (dışbükey optimizasyon, ikinci dereceden programlama, doğrusal programlama vb. Gruplar halinde) dikkatlice inceler ve gösterilen algoritmaları uygularlar. bu işlev türü ve bu tür kısıtlamalar için çalışmak. Bu bölgedeki insanlar "işe yaradığını göster" dediğinde ispat anlamına gelir. Durum, bu tür yöntemlerin sürekli problemlerde çalışmasıdır. Ancak sorununuz bu kategoriye girdiğinde, bu kesinlikle kullanılacak araç.

  • Doğada doğası gereği iyi çalışılmış kesikli sorunlara algoritmalara bağlı olan şeyler olma eğiliminde olan farklı optimizasyon yöntemleri vardır: en kısa yollar, maksimum akışlar, vb. Bu grupta, hiçbir hızlı algoritmanın bulunmasının beklenemeyeceği zor problemleri inceleyen bir grup insan var. Daha sonra, çözümlerinin gerçek optimum optimum faktörün içinde olduğunu gösterebilecekleri hızlı algoritmalar olan yaklaşım algoritmalarını incelerler. Buna "yaklaşım algoritmaları" denir. Bu insanlar sonuçlarını kanıt olarak gösterirler.

Yani ... sorunuzu cevaplamak için meta-özelliklerin yaklaşık algoritmalar olduğunu sanmıyorum. Bana fikre bağlı bir şey olarak görünmüyor, sadece bir gerçek.


"sayısal optimizasyon metotları", "ayrık optimizasyon metotları" gibi, "ilk arama alanları" büyük olmaya zorlanırsa birçok ML tekniğinin gerçek optimumun sabit bir faktörü içinde olduğu kanıtlanmış gibi görünüyor, ancak bir ref görmedim bu konuda.

2
Katılmıyorum. * Nümerik optimizasyon için yerel minimumda bulunabilirsiniz (tabii ki bunu olanaksız kılan prosedürleri de uygulayabilirsiniz). * Aynısı Sinir Ağları için de geçerlidir (en azından perceptron eğitimi sırasında olabilir). * Genetik algoritmalar yerel minimumda olabilir, ayrıca büyük mutasyon oranlarını seçerseniz mantıklı bir evrim elde edemezsiniz! II ayrıca, belirli modellerin her zaman keyfi olarak büyük hatalar yapmasını sağlayacak olan veri setlerinin bulunduğundan şüpheleniyor.
jb.

2
@vzn birçok insan için en uygun çözümün bulunabileceği modelleri seçer. Bunun nedeni SVM'lerde olduğu gibi dışbükey kullanım kaybı işlev görür. Burada en uygun olanı bulmak, "arama alanınızdaki en uygun çözümü bulmak" anlamına gelir, bu nedenle arama alanının nasıl göründüğü ile ilgisi yoktur. Jb'nin dediği gibi, genel kayıp işlevleri için, en uygun olanı bulmak genellikle imkansızdır / olanaksızdır.
Andreas Mueller,

bu cevabı mevcut durumların ve genel uygulama kategorilerinin bir açıklaması olarak kabul etmekle birlikte, hala var olan ve ayrı alanları birbirine bağlayan kanıtlanmış bazı köprüler vardır. NN'lerin rasgele herhangi bir doğruluk derecesine göre herhangi bir sürekli matematiksel modeli modelleyebileceğinin veya "yaklaşık" olarak alabileceğinin ispatı yakından ilişkilidir ... yani kolmogorovs thm
vzn

3

Makine öğrenmesi çoğu zaman birçok yerel minimuma sahip olan bir fonksiyonun optimizasyonu ile ilgilidir. Gizli birimleri olan feedforward sinir ağları buna iyi bir örnektir. Bu işlevler kesikli veya sürekli olsun, küresel bir asgari seviyeye ulaşan ve durmayan bir yöntem yoktur. Tek boyutlu ve pürüzsüz bile olsa (sonsuz sayıda türev vardır) sürekli bir fonksiyonun global minimumunu bulmak için genel bir algoritma olmadığını kanıtlamak kolaydır. Uygulamada, sinir ağlarını öğrenmek için tüm algoritmalar yerel bir asgariye sıkışmış. Bunu kontrol etmek kolaydır: rastgele bir sinir ağı oluşturun, rastgele girdilere verdiği tepkileri büyük bir set haline getirin, sonra cevapları kopyalamak için aynı mimariye sahip başka bir sinir ağı öğrenmeye çalışın. Mükemmel bir çözüm mevcut olsa da, geri yayılım ya da başka bir öğrenme algoritması onu keşfedemez.

Simüle edilmiş tavlama veya genetik algoritmalar gibi bazı öğrenme yöntemleri, birçok yerel asimi araştırır. Sürekli işlevler için en yakın yerel minimum değeri bulan degrade iniş gibi yöntemler vardır. Çok daha hızlılar, bu yüzden pratikte yaygın olarak kullanılıyorlar. Ancak yeterli zaman verildiğinde, eski yöntem grubu, eğitim seti hatası açısından daha sonradan daha iyi performans gösterir. Ancak, makul zaman kısıtlamalarıyla, gerçek dünya problemleri için, ikinci grup genellikle daha iyidir.

Lojistik regresyon gibi bazı modellerde, bir yerel minimum vardır, fonksiyon dışbükeydir, minimizasyon minimuma yaklaşır, ancak modellerin kendileri basittir.

Acı gerçek bu.

Ayrıca yakınsama kanıtının ve en iyi çözüme yakınsama kanıtının iki farklı şey olduğuna dikkat edin. K-aracı algoritması buna bir örnektir.

Son olarak, bazı modeller için nasıl öğreneceğimizi bilmiyoruz. Örneğin, çıktı girdilerin keyfi bir şekilde hesaplanabilir bir işlevi ise, makul bir sürede bu işlevi uygulayan bir Turing veya eşdeğer bir makine bulan iyi algoritmalar bilmiyoruz. Örneğin, eğer f (1) = 2, f (2) = 3, f (3) = 5, f (4) = 7, ..., f (10) = 29 (on ilk üs) Asal sayılar kavramını zaten bilmediği sürece, makul bir zamanda, f (11) = 31 olduğunu tahmin edebilecek herhangi bir öğrenme algoritması bilmiyor.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.