Aşırı öğrenme makinesi: hepsi ne hakkında?


20

Bir yıldan uzun süredir Aşırı Öğrenme Makinesi (ELM) paradigmasını düşünüyor, uyguluyor ve kullanıyorum ve ne kadar uzun süre yaparsam, bunun gerçekten iyi bir şey olduğundan şüphe duyuyorum. Ancak benim düşüncem, alıntılar ve yeni yayınları bir ölçü olarak kullanırken - sıcak bir konu gibi görünen bilimsel toplulukla çelişiyor gibi görünüyor.

ELM, Huang ve ark. ark. Temel fikir oldukça basittir: 2 katmanlı bir yapay sinir ağı ile başlayın ve ilk kattaki katsayıları rastgele atayın. Bu, genellikle geri yayılım yoluyla ele alınan doğrusal olmayan optimizasyon problemini basit bir doğrusal regresyon problemine dönüştürür. Daha için, ayrıntılı xRD , model

f(x)=i=1Nhiddenwiσ(vi0+k=1Dvikxk).

Şimdi, sadece wi ayarlanır (kare hata kaybını en aza indirmek için), oysa vik 'ler rastgele seçilir. Serbestlik derecesindeki kaybın telafisi olarak, genel öneri oldukça fazla sayıda gizli düğüm (yani serbest parametreler wi ) kullanmaktır.

Başka bir bakış açısıyla (değil sinir ağı tarafından gelir genellikle literatürde terfi biri) itibaren, tüm prosedürü olduğunu basitçe lineer regresyon, ancak baz fonksiyonlarını seçmek bir ϕ örneğin, rastgele

ϕi(x)=σ(vi0+k=1Dvikxk).

(Rastgele işlevler için sigmoid'in yanında başka birçok seçenek mümkündür. Örneğin, aynı prensip radyal temel işlevler kullanılarak da uygulanmıştır.)

Bu bakış açısından, tüm yöntem neredeyse çok basit hale gelir ve bu da yöntemin gerçekten iyi bir yöntem olduğundan şüphe etmeye başladığım noktadır (... bilimsel pazarlama kesinlikle olduğu gibi). Sorularım işte burada:

  • Bence, rastgele temel fonksiyonlar kullanarak giriş alanını raster etme fikri, düşük boyutlar için iyidir. Yüksek boyutlarda, makul sayıda memnuniyetle rastgele seçim kullanarak iyi bir seçim bulmak mümkün değildir. Bu nedenle, ELM yüksek boyutlarda bozuluyor mu (boyutsallığın laneti nedeniyle)?

  • Bu görüşü destekleyen / bunlarla çelişen deneysel sonuçları biliyor musunuz? Bağlantılı makalede, yöntemin SVM'lere benzer bir performans sergilediği yalnızca bir 27 boyutlu regresyon veri seti (PYRIM) vardır (oysa ben bir backpropagation YSA ile bir karşılaştırma görmek istiyorum)

  • Daha genel olarak, burada ELM yöntemi hakkında yorumlarınızı istiyorum.


Tüm hikaye için buraya bakın: theanonymousemail.com/view/?msg=ZHEZJ1AJ
davidhigh

Yanıtlar:


10

Yüksek boyutlu problemler için ELM kullanımı ile ilgili sezgileriniz doğrudur, bu konuda yayınlamaya hazırlandığım bazı sonuçlar var. Birçok pratik sorun için, veriler çok doğrusal değildir ve ELM oldukça iyi sonuç verir, ancak boyutsallığın lanetinin, ihtiyacınız olan yerde eğriliğe sahip iyi bir temel işlevi bulma şansının daha fazla olduğu anlamına gelen veri kümeleri her zaman olacaktır. birçok baz vektörü ile bile küçük.

Şahsen en küçük kareler destek vektör makinesi (veya radyal temel fonksiyon ağı) gibi bir şey kullanır ve eğitim setinde bulunanlardan temel vektörleri açgözlü bir şekilde seçmeye çalışırım (örneğin kağıdım , ama başka / daha iyisi vardı) yaklaşık aynı zamanda yayınlanan yaklaşımlar, örneğin Scholkopf ve Smola'nın "Çekirdeklerle Öğrenme" konulu çok iyi kitabında). Yaklaşık bir soruna kesin bir çözümden ziyade kesin bir soruna yaklaşık bir çözüm hesaplamanın daha iyi olduğunu düşünüyorum ve çekirdek makinelerinin daha iyi bir teorik dayanağı var (sabit bir çekirdek için; o).


1
+1. Daha önce hiç ELM hakkında bir şey duymadım, ancak OP'deki açıklamadan biraz sıvı durum makinesi (LSM) gibi geliyor: rastgele ağ bağlantısı ve sadece okuma ağırlıklarını optimize etme. Bununla birlikte, LSM'de rastgele "rezervuar" tekrarlanırken, ELM'de ileri beslenir. Bu gerçekten benzerlik ve fark mı?
amip: Reinstate Monica

1
k(x,xi)xben

@ amoeba: Sıvı hal makinesini bilmiyordum, ama söylediklerinden gerçekten çok benziyor ... ve elbette teknik olarak daha genel. Yine de, tekrarlama, soruna boyutsallığın lanet sorunlarını (... ama tamam, bunu kim yapıyor? Bu rekürrens ağırlıkları biraz özenle mi yoksa tamamen rastgele mi?
davidhigh

@davidhigh, bir RBF çekirdeği için "temsilci teoremleri", her bir eğitim örneği üzerinde bir temel işlevi merkezlemekten daha iyi bir çözüm olmadığını göstermektedir (düzenli maliyet işlevi hakkında makul varsayımlar yapmak). Bu, çekirdek yöntemlerinin (ve spline'ların) güzel özelliklerinden biridir, bu yüzden bunları rasgele yaymaya gerek yoktur. Bu arada, rastgele seçilen temel işlevlerin çıktısı üzerinde doğrusal bir model oluşturmak çok uzun bir geçmişe sahip, benim favorim tek katmanlı arama algısı ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=51949&tag=1 ama ben önyargılı olabilir!
Dikran Marsupial

1
@DikranMarsupial yayınladınız mı veya yayın öncesi herhangi bir şeyiniz var mı?
Tom Hale

0

ELM çıktı ağırlıklarını analitik olarak çözerek verilerden "öğrenir". Böylece ağa beslenen veriler büyüdükçe daha iyi sonuçlar elde edilir. Ancak bu, daha fazla sayıda gizli düğüm gerektirir. ELM çok az hata ile eğitim görürse veya hiç hata yapmazsa, yeni bir girdi seti verildiğinde doğru çıktıyı üretemez.

ELM'nin geleneksel sinir ağına göre ana avantajı, bu tür bir geri yayılma hızlı eğitim süresidir. Hesaplama süresinin çoğu, Huang kağıdında belirtildiği gibi çıktı katman ağırlığının çözülmesi için harcanmaktadır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.