Düzenleme neden Derin Sinir Ağlarını veri açlığına dönüştürmüyor?


37

Genel olarak Sinir Ağları ve özellikle de Derin Sinir Ağları bağlamında sıkça gündeme getirdiğim bir sorun, onların "aç veri" olduğudur - büyük bir veri setimiz olmadığı sürece iyi performans göstermiyorlar. hangi ağı eğitmek için.

Anladığım kadarıyla, bunun NNets'in, özellikle Deep NNets'in çok fazla serbestlik derecesine sahip olmasından kaynaklanıyor olmasıdır. Dolayısıyla, bir NNet, çok sayıda parametreye sahiptir ve modelin parametre sayısı, eğitim veri noktalarının sayısına göre büyükse, aşırı uyum eğilimi artmaktadır.

Peki neden bu konu düzenlileşmeyle çözülmedi? Bildiğim kadarıyla NNets L1 ve L2 düzenlileştirmeyi kullanabilir ve ayrıca ağdaki parametre sayısını azaltabilecek bırakma gibi kendi düzenleme yöntemlerine de sahip olabilir.

Parlamento uygulayacak ve ağın boyutunu sınırlayacak şekilde düzenlemelerimizi seçebilir miyiz?


Düşüncemi açıklığa kavuşturmak için: Verilerimizi modellemeye çalışmak için geniş bir Deep NNet kullandığımızı söyleyin, ancak veri kümesi küçük ve aslında doğrusal bir model tarafından modellenebilir. Öyleyse neden ağ ağırlıkları, bir nöronun lineer regresyonu simüle ettiği ve diğerlerinin sıfırlara yaklaştığı şekilde birleşmiyor? Düzenleme neden bu konuda yardımcı olmuyor?


7
“Öyleyse ağ ağırlıkları neden bir nöronun lineer gerilemeyi taklit ettiği ve diğerlerinin sıfırlara yaklaşacağı şekilde birleşmiyor? Düzenleme neden bu konuda yardımcı olmuyor?” Bunun gerçekten ilginç bir makale olacağını düşünüyorum: bu ağı ve sorunu inşa edin ve sonra ne olacağını değerlendirin.
Monica

Eh, daha sonra düzenli olsanız bile, ağların daha derin katmanlarında azalan degradeler probleminiz var. İşte bu yüzden insanlar tanımladığınız şeyi etkili bir şekilde yapmak için toplu normalleştirme kullanıyorlar. Diğer yaklaşımlar bunu zaten açıklar (LSTM gibi) ve okulu terk etme gibi açlıkla başa çıkmada yardımcı olabilecek şeyler var.
Benjamin Gruenbaum


@ cliffab aşağıdaki cevaplar gibi, normalizasyon performansı arttırmak için ihtiyacınız olan şey değildir. basitçe söylemek gerekirse, döndürülmüş kedi görüntülerinden oluşan bir demet, düzenli hale getirilmiş tek bir kedi görüntüsüyle aynı değildir.
seanv507

1
Ben hiç şaşırmadım. İşyerinde uğraştığım zaman serileriyle eski skool zaman serileri yöntemlerini yenen bir yöntem bulamadım ama denemeye devam ediyorum :)
Aksakal

Yanıtlar:


43

Bunu açıklamanın basit yolu, normalizasyonun gürültüye uymamasına yardımcı olmasıdır, sinyalin şeklini belirlemek açısından pek bir şey yapmaz. Derin bir görkemli fonksiyon işlevi belirleyicisi olarak derin öğrenmeyi düşünüyorsanız, o zaman karmaşık sinyalin şeklini tanımlamak için çok fazla veriye ihtiyaç duyduğunu anlarsınız.

Gürültü yoksa, NN'nin karmaşıklığının arttırılması daha iyi bir yaklaşım getirecektir. NN'nin boyutuna herhangi bir ceza verilmeyecek, daha büyük her durumda daha iyi olurdu. Bir Taylor yaklaşımı göz önünde bulundurulduğunda, polinom olmayan fonksiyonlar için daha fazla terim daima daha iyidir (sayısal hassasiyet konularını göz ardı ederek).

Bu, gürültünün varlığında bozulur, çünkü gürültüye uymaya başlarsınız. Yani, burada yardımına düzene koymayı gelir: o olabilir böylece bizi inşa etmeye izin gürültüye takılmasını azaltmak büyük doğrusal olmayan problemleri sığdırmak için NN.

Aşağıdaki tartışma cevabım için önemli değil, ancak bazı yorumları yanıtlamak ve yukarıdaki cevabın ana yapısını motive etmek için kısmen ekledim. Temelde cevabımın geri kalanı hamburgerli bir yemekle gelen Fransız yangınları gibidir, atlayabilirsiniz.

(Ir) ile ilgili dava: Polinom regresyonu

Polinom regresyonunun oyuncak örneğine bakalım. Aynı zamanda birçok fonksiyon için oldukça iyi bir tahmin edicidir. bölgesinde işlevine bakacağız . Aşağıdaki Taylor serisinden görebileceğiniz gibi, 7. dereceden genişleme zaten oldukça iyi bir uyum, bu nedenle 7+ dereceden oluşan bir polinomun da çok iyi bir uyum olmasını bekleyebiliriz:sin(x)x(3,3)

görüntü tanımını buraya girin

Daha sonra, 7 gözlem ile küçük, çok gürültülü bir veri setine aşamalı olarak artan polinomları yerleştireceğiz:

görüntü tanımını buraya girin

Bilinen birçok insan tarafından polinomlar hakkında söylenenleri gözlemleyebiliriz: kararsızlar ve polinomların sırasındaki artışla çılgınca salınım yapmaya başlıyorlar.

Ancak, sorun polinomların kendisi değildir. Sorun gürültü. Gürültülü verilere polinomları yerleştirdiğimizde, uyumun bir kısmı sinyale değil sese duyar. İşte aynı kesin polinomlar aynı veri setine uyuyor ancak gürültü tamamen kaldırıldı. Uyarlar harika!

7 gözlemleri beri sırayla Bu şaşırtıcı olmamalı 6. için görsel olarak mükemmel uyum dikkat benzersiz olarak Sipariş 6 polinomu tanımlamak için ihtiyaç vardır ve bu düzen 6 zaten çok iyi bir yaklaşım yukarıda biz Taylor yaklaşımı arsa gördüğümüz veri aralığımızda.sin(x)

görüntü tanımını buraya girin

Ayrıca, yüksek dereceli polinomların, 6. sıraya uygun olmadıklarına dikkat edin, çünkü onları tanımlamak için yeterli gözlem yoktur. Öyleyse, 100 gözlemle neler olduğuna bir bakalım. Aşağıdaki grafikte daha büyük bir veri setinin daha yüksek dereceli polinomlara nasıl uymamızı sağladığını ve böylece daha iyi bir uyum sağladığınızı görüyorsunuz!

görüntü tanımını buraya girin

Harika, ancak sorun şu ki, genellikle gürültülü verilerle ilgileniyoruz. Aynı 100'e yakın çok gürültülü veri gözlemine uyuyorsanız, neler olduğuna bakın. Birinci kareye geri döndük: yüksek dereceli polinomlar korkunç salınım uyarları üretir. Bu nedenle, veri setinin arttırılması, verilerin daha iyi açıklanması için modelin karmaşıklığının arttırılmasında pek yardımcı olmadı. Bu, yine, çünkü karmaşık model sadece sinyalin şekline değil, aynı zamanda gürültünün şekline de daha iyi uyuyor.

görüntü tanımını buraya girin

Son olarak, bu problemle ilgili bazı düzenli düzenlemeler deneyelim. Aşağıdaki çizelgede, 9 polinom regresyonu için uygulanan düzenlileştirme (farklı cezalarla) gösterilmektedir. Bunu yukarıdaki sipariş (güç) 9 polinomuna uydurma ile karşılaştırın: uygun bir düzenlileştirme seviyesinde, yüksek dereceli polinomları gürültülü verilere sığdırmak mümkündür.

görüntü tanımını buraya girin

Sadece net olmadığı takdirde: Polinom regresyonunu bu şekilde kullanmayı önermiyorum. Polinomlar yerel uyum için iyidir, bu nedenle parça başına bir polinom iyi bir seçim olabilir. Tüm etki alanını bunlara sığdırmak genellikle kötü bir fikirdir, çünkü gürültülere karşı hassastırlar, çünkü yukarıdaki parcalardan açıkça görülmesi gerekir. Gürültünün sayısal mı yoksa başka bir kaynaktan mı olduğu bu bağlamda önemli değildir. gürültü gürültüdür ve polinomlar tutkuyla tepki gösterecektir.


8
Veri kümeniz küçük olduğunda, gürültü ile gürültü olmayan arasındaki farkı ayırt etmek çok zordur.
Alex R.

3
aslında normalleştirme, fazla takmadan daha büyük bir NN'ye izin verir
Aksakal

6
@Alex - neden daha basit bir model için varsayılan? Karmaşıklığı artırarak hala sığabilecek açıklanamayan bir değişkenlik var! Ve ... amaç açıklanamayan değişkenliği mümkün olduğunca azaltmak ... eğer olmasaydı, NN varsayılan olarak mümkün olan en basit modele, yani "0" a çevirirdi. Ancak, Aksakal'ın yazdığı gibi, NN'nin verilerdeki açıklanamayan değişkenliği gittikçe daha fazla azalttığı gibi, açıklanamayan değişkenliği, yani fazladan uydurmayı - yani düzenli hale getirme ihtiyacını - da azaltıyor .
jbowman

2
Başka bir şey: İnsan oylama davranışı ya da tahmin etmesi zor olan bazı sağlık sonuçları gibi modellemekte olduğunuz sürecin gürültülü olduğunu varsayalım. Ayrıca, verilerinizin her türlü ölçüm hatasıyla ve belki de bazı seçim önyargılarıyla birleştirildiğini söyleyin. Bu kadar yüksek bir gürültüye işaret eden bir ortamda, sadece düzenlileştirmeyle daha basit bir model tercih etmem. Daha az veriyi bile tercih edebilirim, böylece yaptığım tüm düzenlilaştırma çabalarına rağmen kesin olarak bir grup gürültüyü ölçmek istemem.
Brash Dengesi

2
@BrashEquilibrium - mükemmel bir nokta. Gürültü seviyesi yüksek (ancak yine de tahmin kalitesini iyileştiren) 150 özelliğe sahip gradient artırma makinelerini kullanarak bazı büyük ölçekli tahminler yapıyoruz ve GBM’ye% 20’nin sonuçta uygulanan diğer bütün düzenlileştirme mekanizmalarında bile% 50 veya daha fazla vermekten daha iyi tahminler elde edilir.
jbowman

7

Zamanın bu noktasında, belirli düzenlileştirme yöntemlerinin ne zaman ve neden başarılı ve başarısız olduğu iyi anlaşılmamıştır. Aslında, derin öğrenmenin neden her şeyden önce işe yaradığı hiç anlaşılmamıştır.

Yeterince derin bir sinir ağının en iyi davranışa sahip eğitim verilerini mükemmel bir şekilde ezberleyebildiği gerçeği göz önüne alındığında, herhangi bir belirli derin ağ için doğru olandan çok daha yanlış çözümler vardır. Genel olarak konuşmak gerekirse, düzenlileştirme, bu "yanlış" çözümler için modellerin açıklığını sınırlama girişimidir - "yanlış" ifadesinin belirli bir alan için önemli olduğunu düşündüğümüz buluşsal bulgular ile tanımlanır . Ancak çoğu zaman sezgisel şeyi, onunla “doğru” ifadesini kaybetmeyeceğiniz şekilde tanımlamak zordur. Buna güzel bir örnek L2 cezaları.

Bir düzenlenme şekli olarak kabul edilebilecek çok az yöntem, genellikle ML'nin tüm uygulama alanlarına uygulanabilir. Vizyon, NLP ve yapılandırılmış tahmin problemlerinin hepsinde, bu belirli alanlar için deneysel olarak etkili olduğu kanıtlanmış olan normalleştirme teknikleri pişirme kitabı vardır. Ancak bu alanlarda bile, bu teknikler yalnızca belirli koşullar altında etkilidir. Örneğin, derin artık ağlarda toplu normalleştirme, her ikisinin de genellemeyi bağımsız olarak iyileştirdiği gösterilmiş olmasına rağmen, kesintiyi gereksiz kılıyor.

Ayrı bir kayda göre, normalleştirme teriminin o kadar geniş olduğunu düşünüyorum ki bu konuda herhangi bir şeyi anlamayı zorlaştırıyor. Konvolüsyonların parametre alanını piksellere göre üssel olarak sınırladığı gerçeğini göz önünde bulundurarak, evrişimsel sinir ağını vanilya sinir ağı üzerinde bir düzenlenme şekli olarak düşünebilirsiniz.


İlk paragrafınıza katılıp katılmadığımdan emin değilim.
Ander Biguri

3
500 karakterde konuşması zor, ama dünyadaki en iyi araştırmacılar SGD'nin başarısının iyi anlaşılmadığını iddia ediyor. Örneğin, OpenAI’den Ilya S.’yi kullanın: youtube.com/watch?v=RvEwFvl-TrY&feature=youtu.be&t=339
Austin Shin

Tamamen katılıyorum - büyük olasılıkla gerçek ağlardan ziyade polinom yaklaşımları ile anlaşmanın neden kolay olmasının nedeni ...
P-Gn

3

Bu sorunun neden temel olduğunu gösteren teoremlerin bir sınıfı No Free Lunch Teoremleridir . Belirli bir düzenlemenin yardımcı olduğu sınırlı örneklerle ilgili her problem için, aynı düzenlemenin işleri daha da kötüleştireceği başka bir problem daha var. Austin'in belirttiği gibi, genellikle L1 / L2 düzenlileşmesinin birçok gerçek dünya problemine yardımcı olduğunu bulduk, ancak bu sadece bir gözlem ve NFL teoremleri nedeniyle genel bir garanti verilemez.


3

DNN'lerin (derin sinir ağları) endüktif yanlılığının yüksek düzeyde güçlü olduğunu, ancak biraz fazla gevşek olduğunu veya yeterince düşünülmediğini söyleyebilirim. Bununla, DNN'lerin olup bitenler hakkında birçok yüzey istatistiği yakaladığını, ancak daha derin nedensel / bileşimsel yüksek seviyeli yapıya ulaşamadıklarını kastediyorum. (Konvolüsyonları, fakir bir adamın endüktif önyargı spesifikasyonu olarak görebilirsiniz).

Ek olarak, makine öğrenen topluluğa, genelleştirmenin en iyi yolunun (az çıkarımla iyi çıkarımlar / tahminler yapmak) verilere yol açan en kısa programı bulmak olduğuna inanılmaktadır. Ancak programın indüksiyonu / sentezi zordur ve verimli bir şekilde yapmanın iyi bir yolu yoktur. Bunun yerine, devre arama olan yakın bir yaklaşıma güveniyoruz ve bunu geri yayılma ile nasıl yapacağımızı biliyoruz. Burada , Ilya Sutskever bu fikre bir genel bakış sunmaktadır.


Gerçek öğrenme modelleri ile derin öğrenme modelleri gibi gerçek programlar olarak temsil edilen modellerin genelleme gücündeki farkı göstermek için, bu makalenin bir örneğini göstereceğim: Fiziksel sahne anlayışının bir motoru olarak simülasyon .

görüntü tanımını buraya girin

(A) IPE [sezgisel fizik motoru] modeli, sahneler (1) üzerindeki bir dağıtımı başlatan girdiler (örneğin algı, dil, hafıza, görüntü vb.) Alır, ardından fiziğin dağıtım üzerindeki etkilerini simüle eder (2), ve sonra diğer sensorimotor ve bilişsel fakültelerden çıktı almak için sonuçları toplar (3).

görüntü tanımını buraya girin

(B) Uzm. 1 (Düşecek mi?) Kule uyarıcıları. Kırmızı kenarlıklı kule gerçekte zarif bir şekilde dengelidir ve diğer ikisi aynı yüksekliktedir, ancak mavi kenarlı olanın model ve insanlar tarafından düşme olasılığı daha düşüktür.

(C) Muhtemel IPE modeli (x ekseni) vs. İnsan karar ortalamalarına (y ekseni) Exp. 1. σ ve ϕ'nın diğer değerleri için korelasyonlar için Şekil S3'e bakınız. Her nokta bir kuleyi (SEM'li) temsil eder ve üç renkli daire B'deki üç kuleye karşılık gelir.

(D) Temel gerçek (olasılık dışı) ve insan yargıları (İfade 1). Belirsizliği temsil etmediği için, insanların B'deki kırmızı kenarlıklı kule gibi bir dizi uyaranımızla ilgili yargılarını yakalayamaz. dengesiz ve IPE'nin, uyaranlarımıza göre, asıl gerçek ile daha iyi korelasyon göstermesi beklenir.

Buradaki noktama göre, C'ye uyum gerçekten çok iyi, çünkü model insanların nasıl fiziksel yargılarda bulunmalarına dair doğru önyargıları yakalar. O modeller gerçek fizik (o hatırlamak için bu büyük kısmındadır olan bir fiili fizik motoru) ve belirsizlikle başa çıkabilirim.

Şimdi açık soru şudur: bunu derin öğrenme ile yapabilir misiniz? Lerer ve arkadaşlarının bu işte yaptığı şey budur: Örnekle Blok Kulelerin Fiziksel Sezgilerini Öğrenme

Onların modeli: görüntü tanımını buraya girin

Onların modeli aslında eldeki görevde oldukça iyidir (düşen blokların sayısını ve hatta düşme yönlerini tahmin eder)

görüntü tanımını buraya girin

Ancak iki büyük dezavantajı var:

  • Düzgün bir şekilde eğitmek için çok miktarda veri gerekiyor
  • Genelde sadece sığ yollarla: Genel olarak daha gerçekçi görünen görüntülere transfer edebilir, 1 veya 2 blok ekleyebilir veya kaldırabilirsiniz. Ancak bunun ötesinde bir şey var ve performans feci şekilde düşüyor: 3 veya 4 blok ekle, tahmin görevini değiştir ...

Tenenbaum'un laboratuarı tarafından bu iki yaklaşım hakkında bir karşılaştırma çalışması yapıldı: İnsan Fiziksel Sahne Anlayışı Hesapları Olarak Yaklaşık Olasılıklı Simülasyon ve Derin Sinir Ağlarının Karşılaştırmalı Bir Değerlendirmesi .

Tartışma bölümünden alıntı:

CNN'lerin performansı, daha az eğitim verisi olduğu için azalır. Her ne kadar AlexNet (önceden eğitilmemiş), 200.000 eğitim görüntüsüyle daha iyi performans gösterse de, veri eksikliği nedeniyle daha fazla acı çekerken, önceden eğitilmiş AlexNet az miktarda eğitim görüntüsünden daha iyi öğrenebilir. Görevimiz için, her iki model de performanslarının IPE modeli ve insanlarla karşılaştırılabilir olması için yaklaşık 1000 görüntü gerektiriyor.

CNN'ler ayrıca blok sayısının değiştirilmesi gibi küçük sahne varyasyonlarında bile sınırlı genelleme yeteneğine sahiptir. Buna karşılık, IPE modelleri doğal olarak, insan yargılama doğruluğunun bir yığındaki blok sayısı ile azaldığı yolları genelleştirir ve yakalar.

Birlikte ele alındığında, bu sonuçlar insan bilişiyle ilgili sinir ağlarının (ya da en azından CNN'lerin) şu anda yakalayamadıklarına işaret ediyor: dünyanın nedensel süreçlerinin zihinsel bir modelinin varlığı. Niteliksel olarak yeni durumlarda ne olacağını tahmin etmek için nedensel zihinsel modeller simüle edilebilir ve geniş çapta genelleme yapmak için geniş ve çeşitli eğitim verileri gerektirmezler, ancak doğal olarak belirli tür hatalara maruz kalırlar (örneğin, devletten kaynaklanan belirsizliğin yayılması ve dinamikleri gürültüsü) sadece simülasyonla çalıştırma nedeniyle.

Yapmak istediğim noktaya dönelim: sinir ağları güçlü modeller olsa da, nedensel, kompozisyonel ve karmaşık yapıyı temsil etme yeteneğinden yoksun görünüyorlar. Ve çok sayıda eğitim verisi talep ederek bunu telafi ediyorlar.

Ve sorunuza geri dönelim: Geniş endüktif önyargıya ve sinir ağlarının nedenselliği / kompozisyonelliği modellemediği gerçeğine teşebbüs ediyorum, bu yüzden bu kadar çok eğitim verisine ihtiyaçları var. Düzenleme, genelleme tarzları nedeniyle iyi bir çözüm değildir. Daha iyi bir düzeltme, şu anda bütün / parça geometrisini modellemek için kapsüller ya da ilişkileri modellemek için etkileşim ağları için Hinton tarafından denenmekte olduğu gibi önyargılarını değiştirmek olacaktır .


2

Her şeyden önce hem kullanımda hem de derin öğrenme için aktif araştırmada birçok düzenlileştirme yöntemi vardır. Yani öncülünüz tamamen kesin değil.

Kullanılan yöntemlere gelince, ağırlık düşüşü, gradyan inişi yoluyla ağırlıklar üzerine L2 cezasının doğrudan uygulanmasıdır. Ağırlıklarınızın kare normunun gradyanını alın ve her yinelemede bu yönde küçük bir adım ekleyin. Bırakma ayrıca bir tür ortalama yapıya dayatan bir düzenlenme biçimi olarak kabul edilir. Bu, paylaşılan parametrelere sahip ağlar topluluğu üzerinden L2 cezası gibi bir şey anlamına gelir.

Muhtemelen küçük örnekleri ele almak için bu tekniklerin veya diğer tekniklerin seviyesini yükseltin. Ancak, düzenlileşmenin önceki bilgilerin dayatılmasını gerektirdiğine dikkat edin. Ağırlıklar üzerindeki L2 cezası, örneğin ağırlıklar için önceki bir Gaussian anlamına gelir. Düzenleme miktarının arttırılması, temel olarak, önceki bilgilerinizin giderek daha kesin olduğunu ve sonucunuzu öncekine doğru bastırdığını belirtir. Böylece yapabilirsiniz ve daha az artacak ancak taraflı çıktı emilebilir. Açıkçası, çözüm önceden bilgi daha iyidir. Resim tanıma için bu, probleminizin istatistikleri ile ilgili çok daha yapısal bir öncelik anlamına gelecektir. Bu yöndeki sorun, çok fazla alan uzmanlığı dayatıyor olmanız ve insan uzmanlığını dayatmaktan kaçınmak, derin öğrenmeyi kullanmanızın nedenlerinden biriydi.


Önyargıdan bahsetmek için +1. Neden tüm bu olayları önyargı ve varyans açısından açıklamıyorsunuz? "Overfit", kesin bir matematiksel tanımlamaya sahip değildir ve var olmayan bir ikilemi ("overfit" / "overfit değil") ima eder.
Josh,

2

Düşüncemi açıklığa kavuşturmak için: Verilerimizi modellemeye çalışmak için geniş bir Deep NNet kullandığımızı söyleyin, ancak veri kümesi küçük ve aslında doğrusal bir model tarafından modellenebilir. Öyleyse neden ağ ağırlıkları, bir nöronun lineer regresyonu simüle ettiği ve diğerlerinin sıfırlara yaklaştığı şekilde birleşmiyor? Düzenleme neden bu konuda yardımcı olmuyor?

Sinir ağları bu şekilde eğitilebilir. Eğer uygun L1 düzenlenmesi kullanılırsa, ağırlıklar çoğu sıfırlanabilir ve bu sinir ağlarının 1 veya daha fazla lineer regresyon nöronunun ve diğer birçok sıfır nöronun birleştirme gibi davranmasını sağlar. Öyleyse evet - L1 / L2 düzenlenmesi veya bunun gibi sinir ağının boyut veya temsil gücünü sınırlamak için kullanılabilir.

Aslında, modelin kendisinin büyüklüğü bir tür düzenlileştirmedir - eğer modeli büyütürseniz, problem hakkında önceden bilgi sahibi olursunuz, yani, problemler oldukça karmaşıktır, bu nedenle temsil gücü yüksek olan bir model gerektirir. Modeli küçük yaparsanız, sorunun basit olduğu bilgisini enjekte edersiniz, bu nedenle modelin fazla kapasiteye ihtiyacı olmaz.

Bu da L2 düzenlileşmesinin ağları tanımladığınız gibi “seyrek” yapmayacağı anlamına gelir, çünkü L2 düzenlileşmesi her bir nöronun (ağırlık) katkısının küçük fakat sıfır olmayan olması gerektiği konusunda önceden bilgi verir. Böylece ağ, her bir nöronu yalnızca küçük nöron setini kullanmak yerine kullanır.


1

Düzenleme, önceki bilgilerin bir modele dahil edilmesine yönelik bir yöntemdir. Bu Bayes bakış açısından basit görünecek, ancak bakış açısından da dışını görmek kolaydır. Örneğin, Ridge Regression'daki değişkenlerin cezası + standardizasyonu, esasen tahminin, az sayıda öngörücü tarafından domine edilmesi gerektiğine inanmadığımızın bilgileri kullanıyor. Benzer şekilde, cezası “çözümün seyrekliği üzerine bahis” olarak görülebilir (yan not: bu geleneksel Bayes bakış açısına göre bir anlam ifade etmiyor ama bu başka bir hikaye…).L 1L2L1

Buradaki en önemli nokta, düzenlemenin her zaman yardımcı olmadığıdır. Daha doğrusu, muhtemelen neyin doğru olması gerektiğine yönelik olarak düzenleme yapmak çok faydalıdır, ancak yanlış yönde düzenleme yapmak açıkça kötüdür.

Şimdi, derin sinir ağları söz konusu olduğunda, bu modellerin yorumlanabilirliği normalleşmeyi biraz daha zorlaştırıyor. Örneğin, kedileri tanımlamaya çalışıyorsak, önceden "sivri kulakların" önemli bir özellik olduğunu biliyoruz. Eğer cezası olan bazı lojistik regresyon kullanıyor ve "sivri kulakları" gösterge değişkenimiz olsaydı, sivri kulak değişkenindeki cezayı azaltabilirdik (ya da daha iyisi, 0 yerine pozitif bir değere karşı ceza verebiliriz. ) ve sonra modelimizin doğru tahminler için daha az veriye ihtiyacı olacaktır.L2

Ancak şimdi verilerimizin derin bir sinir ağına beslenen kedilerin görüntüleri olduğunu varsayalım. Aslında "sivri kulaklar" aslında kedilerin tanımlanmasında çok yardımcı oluyorsa, belki de bu daha tahmine dayalı gücü vermek için cezayı azaltmak istiyoruz. Ancak ağda bunun nerede temsil edileceği hakkında hiçbir fikrimiz yok ! Sistemin küçük bir kısmının tüm ağa hakim olmaması için hala cezalar verebiliriz, ancak bunun dışında düzenlileşmeyi anlamlı bir şekilde sağlamak zordur.

Özet olarak, önceki bilgileri anlamadığımız bir sisteme dahil etmek oldukça zordur.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.