Sinir ağları ve diğer her şey


15

Google'dan buna tatmin edici bir cevap bulamadım .

Tabii ki elimdeki veriler milyonlarca mertebede ise, derin öğrenme yoludur.

Ve büyük veriye sahip olmadığımda belki de makine öğreniminde diğer yöntemleri kullanmanın daha iyi olduğunu okudum. Verilen neden aşırı uydurmadır. Makine öğrenimi: örn. Verilere bakmak, özellik çıkarma, toplanandan yeni özellikler hazırlamak vb. Ağır korelasyonlu değişkenleri kaldırmak gibi şeyler.

Ve merak ediyorum: neden bir gizli katmana sahip sinir ağları, makine öğrenme problemlerine her derde deva değildir? Bunlar evrensel tahmin edicilerdir, aşırı uydurma, bırakma, l2 düzenlenmesi, l1 düzenlenmesi, toplu normalizasyon ile yönetilebilir. Sadece 50.000 eğitim örneğimiz varsa, eğitim hızı genellikle bir sorun değildir. Test zamanında rastgele ormanlardan daha iyidirler.

Öyleyse neden - verileri temizlemeyin, eksik değerleri genellikle yaptığınız gibi engelleyin, verileri ortalayın, verileri standartlaştırın, tek bir gizli katmanla sinir ağları topluluğuna atın ve fazla uyuşma görmeyene kadar düzenlileştirme uygulayın ve sonra eğitin onları sonuna kadar. Sadece 2 katmanlı bir ağ olduğu için degrade patlama veya degrade kaybolmasıyla ilgili sorun yok. Derin katmanlara ihtiyaç duyulursa, bu hiyerarşik özelliklerin öğrenileceği ve diğer makine öğrenme algoritmalarının da iyi olmadığı anlamına gelir. Örneğin SVM, yalnızca menteşe kaybı olan bir sinir ağıdır.

Başka bir makine öğrenimi algoritmasının dikkatli bir şekilde düzenlenmiş 2 katmanlı (belki 3?) Sinir ağından daha iyi performans göstereceği bir örnek takdir edilecektir. Bana sorunun bağlantısını verebilirsin ve yapabileceğim en iyi sinir ağını eğitirdim ve 2 katmanlı veya 3 katmanlı sinir ağının herhangi bir kıyaslama makinesi öğrenme algoritmasından daha az olup olmadığını görebiliriz.


14
Yapay Sinir Ağları bir makine öğrenme algoritmasıdır ...
Matthew Drury

6
Görüntü tanıma gibi derin öğrenmenin kral olduğu bazı alanlar kesinlikle vardır, ancak diğer birçok alanda, Kaggle yarışmalarının sonuçlarına bakmaktan açıkça görüldüğü gibi, gradyan artırmaya egemen olma eğilimindedirler.
Jake Westfall

1
@MatthewDrury - Gerçekten de öyle! terminolojilerde berbat olduğu için özür dilerim. Umarım mesaj iletilir. yine de soruyu değiştirmek, daha sağlam olmak. İşaret ettiğiniz için teşekkür ederiz
MiloMinderbinder

1
Ağ derinliği ile ilgili olarak, kesinlikle şuna
jld

Yanıtlar:


31

Her bir makine öğrenme algoritmasının farklı bir endüktif sapması vardır, bu nedenle sinir ağlarını kullanmak her zaman uygun değildir. Doğrusal bir eğilim her zaman en iyi, doğrusal olmayan ağların bir topluluğu yerine basit doğrusal regresyon ile öğrenilir.

Geçmiş Kaggle yarışmalarının kazananlarına göz atarsanız , görüntü / video verileriyle ilgili herhangi bir zorluk hariç, sinir ağlarının her şeyin çözümü olmadığını hızlıca bulacaksınız. Burada bazı geçmiş çözümler.

fazla uyuşma görmeyene kadar regülasyon uygulayın ve daha sonra bunları sonuna kadar eğitin

Ağın herhangi bir şey öğrenme kapasitesini tamamen ortadan kaldırmadan aşırı sığmayı önlemek için yeterli düzenlileştirme uygulayabileceğinizin garantisi yoktur. Gerçek hayatta, tren-test boşluğunu ortadan kaldırmak nadiren mümkündür ve bu yüzden kağıtlar hala tren ve test performansını rapor eder.

onlar evrensel tahmin edicilerdir

Bu sadece sınırsız sayıda birime sahip olma sınırında geçerlidir, ki bu gerçekçi değildir.

Bana soruna bağlantı verebilir ve yapabileceğim en iyi sinir ağı eğitebilirim ve 2 katmanlı veya 3 katmanlı sinir ağının başka bir kıyaslama makinesi öğrenme algoritmasının yetersiz olup olmadığını görebiliriz

Bir sinir ağının asla çözemeyeceğini düşündüğüm örnek bir problem: Bir tamsayı verildiğinde, asal ya da asal olmayan olarak sınıflandırın.

Bunun, artan uzunluktaki tüm geçerli programlar üzerinde yinelenen ve asal sayıları doğru bir şekilde tanımlayan en kısa programı bulan basit bir algoritma ile mükemmel bir şekilde çözülebileceğine inanıyorum. Gerçekten de, bu 13 karakterli normal ifade dizesi , arama için hesaplamaya zorlanamayan asal sayılarla eşleşebilir.


Düzenleme, temsil gücüne sahip olandan, düzenleyici yöntemle ciddi biçimde zorlanan modelden daha uygun bir model alabilir mi? Arada her zaman tatlı bir yer olmayacak mı?

Evet, tatlı bir nokta var, ancak aşırı takmayı bırakmadan önce genellikle yol budur. Bu şekle bakın:

http://gluon.mxnet.io/_images/regularization-overfitting.png

Yatay ekseni çevirir ve "regülasyon miktarı" olarak yeniden etiketlerseniz, bu oldukça doğrudur - hiç fazla sığma olana kadar düzenlerseniz, hatanız çok büyük olacaktır. "Tatlı nokta" biraz fazla takıldığında, ancak çok fazla olmadığında ortaya çıkar.

Nasıl 'artan uzunlukta tüm geçerli programlar üzerinde yineleme ve asal sayıları doğru tanımlayan en kısa programı bulan basit bir algoritma'. öğrenen bir algoritma mı?

θH(θ)θ


Eğer doğru alırsanız eğer veri önemli değilse derin ağ asla her ikisi için en iyi hiperparametreler verilen en iyi sığ ağın doğrulama doğruluğunu isabet edemez?

Evet. Benim açımdan göstermek için çirkin ama umarım etkili bir rakam. https://i.imgur.com/nM3aI2l.png

ama bu mantıklı değil. derin bir ağ sığın üstünde 1-1 bir harita öğrenebilir

Soru "yapabilir" değil, "yapacak" ve eğer backpagagation eğitimi alıyorsanız, cevap muhtemelen değildir.

Daha büyük ağların her zaman küçük ağlardan daha iyi çalışacağını tartıştık

Daha fazla yeterlilik olmadan, bu iddia yanlıştır.


Cevap için teşekkür ederim! Düzenleme, temsil gücüne sahip olandan, düzenleyici yöntemle ciddi biçimde zorlanan modelden daha uygun bir model alabilir mi? Arada her zaman tatlı bir yer olmayacak mı?
MiloMinderbinder

Oyuncak sorununuzla ilgili. Nasıl 'artan uzunlukta tüm geçerli programlar üzerinde yineleme ve asal sayıları doğru tanımlayan en kısa programı bulan basit bir algoritma'. öğrenen bir algoritma mı?
MiloMinderbinder

Cs231n ders notlarına dikkat edin - 'Daha büyük ağların her zaman daha küçük ağlardan daha iyi çalışacağı gerçeğini tartıştık, ancak daha yüksek model kapasiteleri daha güçlü düzenlileştirme (daha yüksek ağırlık bozulması gibi) ile uygun şekilde ele alınmalıdır, aksi takdirde fazla yüklenebilirler. Daha sonraki bölümlerde daha fazla düzenlileştirme biçimi (özellikle terk) göreceğiz. ' cs231n.github.io/neural-networks-1
MiloMinderbinder

@ user46478 Cevabı düzenleyerek yukarıdaki soruları yanıtladım
shimao

'Ağın herhangi bir şey öğrenme kapasitesini tamamen ortadan kaldırmadan aşırı sığmayı önlemek için yeterli düzenlileştirme uygulayabileceğinizin garantisi yoktur.' - Üzgünüm ama bu ifadeyi hala anlamıyorum. Eğitim verisini alıyorum, {tren, val} bölünmüş, makinemin izin verdiği en büyük ağı yapıyorum, çeşitli bırakma olasılıklarında aldığım doğrulama hataları arasında doğrulama hatasını en aza indirilmiş olana kadar bırakma olasılığını artırıyorum. Bu süreç, iyi bir modelden geçmeden aşırı takılmış bir modelden işe yaramaz mı?
MiloMinderbinder

11

Ben bir makine öğrenme her derde deva diye bir şey olmadığını ekleyebilirim:

By hiçbir ücretsiz öğle yemeği teoremi:

Bir algoritma belirli bir sınıf probleminde iyi performans gösterirse, kalan tüm problemler setinde performansı düşmüş olanın bedelini öder


Bu çok iç karartıcı (ama endişelenmeyin, sonuçlardan tartışmayacağım) 1. Bunu okuduğumda, bunun öğrenebildikleri fonksiyonlar üzerinde aynı dağılıma sahip algoritmalar hakkında olduğunu da anlıyoruz (ki aynı etki alanı anlamına da gelir). Böylece sinir ağları sadece evrensel tahmincilere karşı çukurlaşabilir. 2. Bu, işlev alanının ne kadar hızlı arandığı hakkında konuşmaz. 2 gizli katmana sahip bir sinir ağının mutlaka her problemde bir gizli katmana sahip bir sinir ağına eşdeğer veya daha üstün olduğunu söyleyebilir miyiz? Bence süreklilik varsayımı burada çok şey yapmak zorunda
MiloMinderbinder

uygun hiperparametre ile iki gizli katmanlı sinir ağı tek bir gizli katmanlı sinir ağından daha hızlı benzer ortak alanlara sahip fonksiyonlar arasında atlar. girdileriniz?
MiloMinderbinder

1
'2 gizli katmanı olan bir sinir ağının mutlaka her problemde bir gizli katmanı olan bir sinir ağına eşdeğer veya daha üstün olduğunu söyleyebilir miyiz?' ' Hayır maalesef değil. Karşı örnek olarak, tamamen ayrılabilir bir veri kümesi için veri noktalarının sayısına eşit gizli birimlerin sayısı ile 1 katmanlı bir sinir ağına karşı bir lojistik regresyon (sıfır gizli katmanlara sahip bir nn) düşünün. Lr'nin yakalayamadığı karar sınırı hakkında hiçbir bilgi yok ve yüksek karmaşıklık nn'nin fazla uyması muhtemel
user3684792

3
Buradaki açıklamaya katılıyorum, ancak wikiipedia sayfasından da alınan NFL'ye standart uyarıyı eklemek istedim: "NFL'nin yalnızca hedef işlev tüm olası işlevlerin tekdüze bir dağılımından seçilmesi durumunda geçerlidir".
mkt - Monica'yı

1
@ user46478 NFL teoreminin "tek bir gizli katmana sahip sinir ağlarının makine öğrenme problemlerine her derde deva olmamaları?"
mkt - Monica'yı
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.