Evrensel İşlev yaklaşımı

Evrensel yaklaşım teoremi aracılığıyla, tek bir gizli katmanı ve keyfi bir aktivasyon fonksiyonu olan bir sinir ağının herhangi bir sürekli fonksiyona yaklaşabileceği bilinmektedir.

Evrensel işlev yaklaşıklayıcıları olan başka hangi modeller var?

machine-learning function approximation

— seçmek
kaynak

Bu soruyu ve bazı cevapları değerlendirmek için bu siteye katıldım.

— Prasad Raghavendra

Bu, istatistik literatüründe, regresyon başlığı altında yoğun bir şekilde ele alınmaktadır. Buradaki iki standart referans Wasserman'ın "tüm parametrik olmayan istatistik" kitabı ve Tsybakov'un "parametrik olmayan tahmine giriş" dir. Bazı standart şeyler hakkında kısaca konuşacağım ve istatistiklerin dışında işaretçiler vermeye çalışacağım (bu ortak bir konudur ve farklı alanların farklı kültürleri vardır: farklı teoremleri kanıtlayın, farklı varsayımlar yapın).

(Çekirdek regresörleri, bazen Nadaraya-Watson Tahmincisi olarak adlandırılır.) Burada, fonksiyonu herhangi bir noktada yakındaki değerlerin ağırlıklı bir kombinasyonu olarak yazarsınız. Daha somut olarak, bu istatistik literatüründe olduğundan, genellikle bazı dağıtımlardan bazı örnekleriniz olduğunu ve bazı çekirdek düzeltebileceğinizi varsayalım (bunu şöyle düşünebilirsiniz) Gauss, ama sıfır ortalama) en önemli ve yazma nedir $((x_i,f(x_i)))_{i=1}^n$ $K$ burada(arttıkçaküçük mesafelere daha duyarsınız). Garanti,, probilistik bir bozulma kriteri (sup-norm beklentisi, yüksek olasılık, ne olursa olsun) sıfıra gitmesidir. (neye benzediğipek fark etmez---nasıl seçtiğiniz daha önemlidir.)
$\hat{f} (x) := \sum_{i} f (x_{i}) (\frac{K (c_{n} (x - x_{i}))}{\sum_{j} K (c_{n} (x - x_{j}))}),$ $\hat f(x) := \sum_i f(x_i) \left(\frac{ K(c_n(x-x_i)) }{ \sum_j K(c_n(x-x_j))}\right),$ $c_n\to\infty$ $n$ $n\to\infty$ $K$ $c_n$
(Baz yöntemleri.) Benzer bir şey formları vektör uzayı için bir (muhtemelen overcomplete) temelinde bu "baz fonksiyonları", fonksiyonlar lineer dalgacıklarıyla gibi şeyler ya çıkaran parça parça, ama gerçekten bazı şey ailesini seçmektir ve ağırlıklı doğrusal belirlemek ölçekli ve çevrilmiş öğelerin birleşimi. Buradaki teknikler (1) 'den büyük ölçüde farklıdır; veri noktalarında merkezlenen temel işlevleri aşağı doğru çizmektense, bazı bozulma kriterlerini en aza indirmek için her birinin ağırlığını ve yerini dikkatlice hesaplarsınız. (Tipik olarak, onların miktarı önsel sabittir.) Bir yaklaşım arasında bazı yaklaşım hatasını en aza indirmek için çalışırken açgözlülükle yeni fonksiyonlar eklemek "temeli peşinde" dir ve $L^2$ $\hat f$ $f$ . Buradaki yaklaşımların çeşitliliği hakkında bir fikir edinmek için, düzgün bir yazı Rahimi & Recht'in "rastgele temelli işlevlerin tekdüze yaklaşımı" dır. Belki de bunların hepsinin büyük babasının Fourier genişlemesi olduğunu söylemeliyim; Mallat'ın Wavelets kitabında bu konuda çok iyi materyal var.
(Ağaç yöntemleri.) Diğer bir yol, bir fonksiyona ağaç olarak bakmaktır; her düzeyde, alan adının bir bölümüyle çalışıyorsunuz ve örneğin ortalama noktayı döndürüyorsunuz. (Ağacın her budaması da bir bölüm verir.) Sınırda, bu bölümün inceliği artık işlevi takdir etmeyecek ve tam olarak yeniden yapılandırdınız. Bu bölümün en iyi nasıl seçileceği zor bir sorundur. (Bunu "regresyon ağacı" altında Google'a ekleyebilirsiniz.)
(Polinom yöntemleri; ayrıca spline'lara ve diğer enterpolasyon tekniklerine bakın.) Taylor teoremine göre, iyi davranan fonksiyonlara keyfi olarak yaklaşabileceğinizi biliyorsunuz. Bu çok temel bir yaklaşım gibi görünebilir (yani, sadece Lagrange enterpolasyon polinomunu kullanın), ancak işlerin ilginçleştiği yer hangisinin olduğuna karar vermektir .enterpolasyona işaret eder. Bu, sayısal entegrasyon bağlamında kapsamlı bir şekilde araştırılmıştır; "clenshaw-curtis quadrature" ve "gaussian quadrature" başlıkları altında şaşırtıcı matematik bulabilirsiniz. Bunu buraya atıyorum çünkü buradaki varsayım ve teminat türleri yukarıda görünenden çok farklı. Bu alanı seviyorum ama bu yöntemler boyutun lanetinden çok kötü acı çekiyor, en azından bu yüzden eskiden olduğundan daha az tartışıldıklarını düşünüyorum (mathematica ile sayısal entegrasyon yaparsanız, tek değişkenli alanlar için kareleme yapar, ancak çok değişkenli alanlar için örnekleme teknikleri).

İşlev sınıfınızla ilgili çeşitli kısıtlamalar göz önüne alındığında, her türlü yaygın olarak kullanılan diğer senaryoları almak için yukarıdakileri başlatabilirsiniz. Örneğin, boole değerli işlevlerde, eşik (1.) en yakın komşu tahmincisi veya bazı yerel çekirdeğe (gaussian) sahip bir SVM'ye çok benzeyecektir. Yukarıdaki şeylerin çoğu boyutun lanetinden muzdariptir (sınırlar boyuta üstel bağımlılık gösterir). Makine öğreniminde, ya sınıfınızı bazı ailelerle açıkça sınırlandırarak (yani, "parametrik yöntemler) ya da örtük bir kısıtlamayla, genellikle yaklaşıkların kalitesini hedef işlev karmaşıklığına (ör. güçlendirmede zayıf öğrenme varsayımı).

$f:\mathbb{R}^d \to \mathbb{R}$

f (x) = \sum_{j = 0}^{2 d} h_{j} (\sum_{i = 1}^{d} g_{j, i} (x_{i})),

$f(x) = \sum_{j=0}^{2d}h_j\left(\sum_{i=1}^d g_{j,i}(x_i)\right),$

g_{j, i} : R \to R

$g_{j,i} : \mathbb{R}\to\mathbb{R}$

h_{j} : R \to R

$h_j:\mathbb{R}\to\mathbb{R}$

g

$g$

h

$h$

Θ (d^{2})

$\Theta(d^2)$

(Sadece fonksiyon sınıfları hakkında sorular sordunuz, ama yöntemlerle de ilgileneceğinizi düşündüm. Değilse .. ayy)

— matus
kaynak

"1957'den!", Bu 1957'nin üssü, yani gelecekten mi ?! :)

— nbro