Yapay sinir ağları Polinom özellikleri ile doğrusal regresyona EŞDEĞER?

11

Diğer makine öğrenimi algoritmalarına kıyasla sinir ağları ve yararları hakkındaki anlayışımı geliştirmek istiyorum. Anlayışım aşağıdaki ve sorum şu:

Lütfen anlayışımı düzeltebilir ve tamamlayabilir misiniz? :)

Benim anlayışım:

(1) Yapay sinir ağları = Giriş değerlerinden çıkış değerlerini tahmin eden bir işlev. Evrensel Yaklaşım Teoremine ( https://en.wikipedia.org/wiki/Universal_approximation_theorem ) göre, yeterli nöron verildiğinde genellikle (iyi davranması gerekir) tahmin fonksiyonuna sahip olabilirsiniz.

(2) Aynısı, giriş değerlerinin polinomlarını ek giriş değerleri olarak alarak lineer regresyon için de geçerlidir, çünkü her bir işlevi polinomlarla yaklaşık olarak (Taylor genişlemesini) karşılaştırabilirsiniz.

(3) Bu, (bir anlamda, mümkün olan en iyi sonuçlara göre), bu 2 yöntemin eşdeğer olduğu anlamına gelir.

(4) Bu nedenle, temel farkları, yöntemin daha iyi hesaplamalı uygulamaya verdiği yöntemdir. Başka bir deyişle, eğitim örneklerine dayanarak, nihayetinde tahmin işlevini tanımlayan parametreler için daha hızlı iyi değerler bulabilirsiniz.

Düşüncemi geliştirmek için diğer bağlantılara veya kitaplara herhangi bir düşünce, yorum ve öneriyi kabul ediyorum.

regression machine-learning

— Tyrex
kaynak

2

Math.stackexchange.com'a taşınmalıdır. Tanh aktivasyonu olan sinir ağları herhangi bir pürüzsüz fonksiyona yaklaşık iyi gelir, ancak bir özelliği daha vardır: pürüzsüzlük (ağırlıkların ölçeklendirilmesi) noktaya bağlıdır, bu iyi bir küresel için anahtardır yaklaştırılması. Bunu polinom yaklaşımı ile (sürekli bir işlev verildiğinde, ile evrişimini alabilir ve Taylor genişlemesinin ilk birkaç terimini bir noktaya kadar kullanamazsınız. iyi bir yerel yaklaşım)

\tanh

$\tanh$

n^{d} e^{- π | n x |^{2}}

$n^d e^{-\pi |n x|^2}$

— user1952009 29:17

user1952009 - Stone-Weierstrass, teoremdeki yaklaşıklığın tekdüzeliği nedeniyle keyfi olarak iyi bir küresel yaklaşım anlamına gelmiyor mu?

— jbowman

@jbowman İyi bir yerel yaklaşım yapar: sürekli, ve için düzgün, analitik veya polinom fonksiyonu vardır (istediğiniz gibi) öyle ki . Sinirsel bir ağ da öyle, ancak özellik birçok farklı yerel yaklaşım (farklı ) alabilir ve bir çeşit küresel yaklaşım elde etmek için bunları karıştırabilmesidir.

f

$f$

r

$r$

ϵ

$\epsilon$

f_{r, ϵ}

$f_{r,\epsilon}$

sup_{| x | \leq r} | f (x) - f_{r, ϵ} (x) | \leq ϵ

$\sup_{|x| \le r} |f(x)-f_{r,\epsilon}(x)| \le \epsilon$

x_{0}

$x_0$

— user1952009

1

Bu, potansiyel bir kopyası stats.stackexchange.com/questions/41289/... ben bayrağı bu soruyu olur, ama o lütuf ile, ben :) ben sadece yerine burada yorum yapmak için gidiyorum sanırım

— Hugh Perkins

1

+1 @HughPerkins, içgörülü bir ilgili Q bağlantısıyla ilgili. Ancak, ilgili sorudaki cevaplar burada soru hakkında fikir verse de (örneğin, Stephan Kolassa'nın açıkladığı gibi, aNN lineer olmayışı varsayılan olarak dikkate alırken, regresyon sadece özellikle ek tekniklerle modellenirken) yinelenen için işaretlemezdim . Hangi model türünün daha iyi sonuçlar verebileceğini sordunuz, bu soru özellikle iki yöntemin sonuçlarında ve genelleştirilebilirliklerinde benzer olup olmadığını açıklamayı soruyor.

— IWS

7

İşte anlaşma:

Teknik olarak gerçek cümleler yazdınız (her iki model de yeterli parametre verildiğinde herhangi bir 'çok deli değil' işlevine yaklaşabilir), ancak bu cümleler sizi hiçbir yere götürmez!

Neden? Peki, evrensel yaklaşım teorisine veya bir sinir ağının ENOUGH nöronları varsa herhangi bir f (x) hesaplayabileceğine dair diğer resmi kanıtlara daha yakından bakın.

Gördüğüm tüm bu tür kanıtlar sadece bir gizli katman kullanıyor.

Biraz sezgi için http://neuralnetworksanddeeplearning.com/chap5.html buraya hızlıca göz atın . Sadece bir katman kullanıyorsanız, bir anlamda ihtiyaç duyulan nöron sayısının katlanarak arttığını gösteren çalışmalar vardır.

Yani, teoride haklısın, pratikte, sonsuz miktarda belleğin yok, bu yüzden gerçekten 2 ^ 1000 nöron ağı eğitmek istemiyorsun, değil mi? Sonsuz miktarda hafızaya sahip olsanız bile, bu ağ kesinlikle fazla olacaktır.

Bana göre, ML'nin en önemli noktası pratik nokta! Biraz genişletelim. Buradaki asıl büyük sorun, polinomların eğitim seti dışında çok hızlı bir şekilde nasıl arttığı / azaldığı değil. Bir şey değil. Hızlı bir örnek olarak, herhangi bir resmin pikseli çok özel bir aralıktadır (her RGB rengi için [0,255]), böylece yeni örneklerin egzersiz seti değer aralığınızda olacağından emin olabilirsiniz. Hayır. Önemli olan: Bu karşılaştırma (!) İle başlamak için yararlı değildir.

MNIST ile biraz denemenizi ve tek bir katman kullanarak elde edebileceğiniz gerçek sonuçları görmeyi denemenizi öneririm.

Pratik ağlar birden fazla gizli katman, bazen düzinelerce (daha iyi, Resnet daha fazla ...) katman kullanır. Bir neden için. Bu sebep kanıtlanmamıştır ve genel olarak, bir sinir ağı için bir mimari seçmek sıcak bir araştırma alanıdır. Başka bir deyişle, hala daha fazla bilgi sahibi olmamız gerekirken, birçok veri seti için karşılaştırdığınız her iki model de (lineer regresyon ve sadece bir gizli katmanla NN), hiçbir şekilde yararlı değildir!

Bu arada, ML'ye girmeniz durumunda, aslında mevcut bir 'araştırma alanı' olan PAC (muhtemelen yaklaşık olarak doğru) / VC boyutu olan başka bir işe yaramaz teorem var. Bunu bir bonus olarak genişleteceğim:

Evrensel yaklaşım temel olarak sonsuz miktarda nöron verildiğinde herhangi bir işleve (çok teşekkür ederim?) Yaklaşabileceğimizi belirtiyorsa, PAC'ın pratikte söylediği şey (pratikte!) modelimizdeki en iyi hipotezlere sahip olmak istiyoruz. Pratik bir ağ için gerekli örneklerin gerçek miktarını bazı okish olasılığı ile bazı pratik istenen hata oranı içinde hesaplamak kesinlikle komikti :) Evrendeki elektron sayısından daha fazlaydı. PS'yi artırmak için ayrıca örneklerin IID olduğu varsayılır (bu asla doğru değildir!).

— Yoni Keren
kaynak

Öyleyse, yapay sinir ağları, polinom özellikli doğrusal regresyona eşdeğer mi, değil mi? Cevabınız katmanların miktarına ve gerekli nöronlara odaklanıyor gibi görünüyor, ancak bu iki analizin neden eşdeğer olması / olması gerektiği açıklamıyor. Daha fazla (gizli) katman eklemek, bir sinir ağını polinomlardaki bir regresyondan daha fazla işlevi (hatta) işleyebiliyor mu? Ve OP'nin kendisinin bir cevapta merak ettiği gibi, bu modellerin dış geçerliliği / örnek dışı performansı (ve daha karmaşık model seçenekleri ve performans kullanma arasındaki ödünleşimler) ne olacak?

— IWS

Seni ilk cümleme atıfta bulunuyorum: "Teknik olarak gerçek cümleler yazdın".

— Yoni Keren

Ben de sordum, çünkü ifadenizin 'OP'nin gerçek cümleler yazdığını' açıklamanın nedeni, cevabınıza dayanarak benim için net değildi. Bu konuyu biraz açıklığa kavuşturabilir misiniz?

— IWS

Kesinlikle. Bu daha mı iyi, yoksa hala belirsiz olan başka bir şey buluyor musunuz?

— Yoni Keren

8

Herhangi bir fonksiyonun hem sinir ağı olarak sayılan bir şey hem de polinom olarak sayılan bir şeyle keyfi olarak yakınlaştırılabileceği doğrudur.

Her şeyden önce, bunun birçok yapı için geçerli olduğunu unutmayın. Sinüsleri ve kosinüsleri (Fourier dönüşümleri) birleştirerek veya basitçe çok sayıda "dikdörtgen" ekleyerek (gerçekten kesin bir tanım değil, ama umarım bunu elde edersiniz) herhangi bir işleve yaklaşabilirsiniz.

İkincisi, Yoni'nin cevabı gibi, bir ağı eğittiğinizde veya çok fazla güç, nöron sayısı veya güç sayısı ile bir regresyon taktığınızda sabittir. Sonra bazı algoritmalar, belki degrade iniş ya da bir şey uygulayın ve bununla en iyi parametreleri bulun. Parametreler bir ağdaki ağırlıklar ve büyük bir polinomun katsayılarıdır. Bir polinomda aldığınız maksimum güce veya kullanılan nöron sayısına hiperparametreler denir. Uygulamada, bunlardan birkaçını deneyeceksiniz. Bir parametrenin bir parametre olduğuna emin olabilirsiniz, ancak pratikte bu böyle yapılmaz.

Bununla birlikte, makine öğrenimi ile, verilerinize mükemmel bir şekilde uyan bir işlev istemezsiniz. Bunu başarmak çok zor olmazdı. İyi uyan bir şey istiyorsunuz, ancak muhtemelen henüz görmediğiniz noktalar için de çalışıyor. Örneğin, belgelerinden alınan bu resme bakın scikit-learn.

Bir çizgi çok basit, ama en iyi yaklaşım sağda değil, ortada, sağdaki fonksiyon en iyi uysa da. Sağdaki işlev, özellikle soldaki kıvrımlı parçaların yakınına düştüğünde yeni veri noktaları için oldukça garip (ve muhtemelen yetersiz) tahminler yapar.

Birkaç parametrenin bu kadar iyi çalıştığı sinir ağlarının nihai nedeni, bir şeye sığabilecekleri, ancak gerçekten fazla uyuşmayacaklarıdır. Bunun da bir çeşit stokastik eğim alçalması ile eğitildikleri yolla ilgisi vardır.

— Gijs
kaynak

2

Henüz yanıt verilmediği için (cevap olarak gönderildiği için kullanıcı1952009 yorumunu kabul ediyorum), bu arada öğrendiklerimi paylaşmama izin verin:

(1) Bana öyle geliyor ki anlayışım genel olarak doğru, ama şeytan ayrıntıda gizlidir.

(2) "Anlayışım" da gözden kaçan bir şey: Parametreli hipotez, eğitim seti dışındaki verilere ne kadar iyi genleşecek? Sinir ağı tahminlerinin polinom olmayan doğası, basit doğrusal / polinom regresyonundan daha iyi olabilir (polinomların eğitim seti dışında çok hızlı bir şekilde nasıl arttığını / azaldığını unutmayın).

(3) Parametreleri hızlı bir şekilde hesaplamanın önemini daha fazla açıklayan bir bağlantı: http://www.heatonresearch.com/2017/06/01/hidden-layers.html

— Tyrex
kaynak

2

Belki bu makale size yardımcı olabilir:

Sinir Ağlarına Alternatif Olarak Polinom Regresyonu

Özet şöyle diyor:

Sinir ağlarının (NN) başarısına rağmen, birçokları arasında "kara kutu" doğası konusunda hala bir endişe bulunmaktadır. Neden çalışıyorlar? Burada, NN'lerin aslında polinom regresyon modelleri olduğu konusunda basit bir analitik argüman sunuyoruz. Bu görüşün NN'ler için çeşitli sonuçları olacaktır, örneğin NN'lerde yakınsama problemlerinin neden ortaya çıktığı hakkında bir açıklama sağlamak ve aşırı sığmayı önlemek için kabaca yol gösterir. Ek olarak, bu fenomeni literatürde daha önce bildirilmeyen NN'lerin çok yönlü bir özelliğini öngörmek ve doğrulamak için kullanıyoruz. En önemlisi, bu gevşek yazışma göz önüne alındığında, NN yerine rutin olarak polinom modelleri kullanmayı seçebilir, böylece birçok ayarlama parametresini ayarlamak ve yakınsama sorunlarıyla uğraşmak gibi ikincisinin bazı önemli sorunlarından kaçınabilirsiniz. Birkaç ampirik sonuç sunuyoruz; her durumda, polinom yaklaşımının doğruluğu, NN yaklaşımlarının doğruluğuyla eşleşir veya bu aşar. Çok özellikli, açık kaynaklı bir yazılım paketi olan polyreg mevcuttur.

— lucazav
kaynak