Düzenlemeler ve Düzenleme nedir?


12

Makine öğrenimi üzerinde çalışırken bu kelimeleri gittikçe duyuyorum. Aslında, bazı insanlar denklemlerin düzenleri üzerinde çalışan Fields madalyası kazandılar. Sanırım bu, istatistiksel fizik / matematikten makine öğrenmesine kadar geçen bir terimdir. Doğal olarak, sorduğum bazı insanlar sezgisel olarak açıklayamadı.

Düzenlemede bırakma yardımı gibi yöntemlerin biliyorum (=> aşırı sığmayı azalttığını söylüyorlar, ama gerçekten ne olduğunu anlamıyorum: eğer sadece aşırı takmayı azaltırsa, neden sadece aşırı takma yöntemleri olarak adlandırılmıyor => olmalı bence daha fazla bir şey, dolayısıyla bu soru).

Açıklayabilirseniz gerçekten minnettar olurum (sanırım saf ML topluluğu da olurdu!):

  1. Düzenliliği nasıl tanımlıyorsunuz? Düzenlilik nedir?

  2. Düzenleme, düzenliliği sağlamanın bir yolu mu? yani düzenli yakalama?

  3. Neden bırakma, normalleştirme yöntemleri gibi yöntemlerin hepsi düzenlileştirme yaptığını iddia ediyor?

  4. Neden bunlar (düzenlilik / düzenlilik) makine öğreniminde ortaya çıkıyor?

Yardımın için çok teşekkürler.

Yanıtlar:


8

Düzenleme, sonlu egzersiz verisi örneklerinden öğrenmeye çalıştığımız neredeyse tüm makine öğrenimi algoritmalarında kullanılır.

Düzenleme kavramının doğuşunu açıklayarak özel sorularınıza dolaylı olarak cevap vermeye çalışacağım. Tam teori çok daha ayrıntılıdır ve bu açıklama tam olarak yorumlanmamalıdır, ancak daha fazla keşif için sizi doğru yönde göstermeyi amaçlamaktadır. Birincil amacınız sezgisel bir düzenlenme anlayışı elde etmek olduğundan , Simon Haykin'in 3. baskısı olan "Yapay Sinir Ağları ve Öğrenme Makineleri" Bölüm 7'den (ve bunu yaparken birkaç ayrıntıyı) aşağıdaki açıklamayı özetledim ve büyük ölçüde basitleştirdim.

xiyif

Bunu daha da ileri götürmek için, Hadamard'ın "iyi pozlanmış" bir sorun terminolojisini anlayalım - bir sorun, aşağıdaki üç koşulu karşılarsa iyi bir şekilde ortaya konulur:

  1. xiyi
  2. x1x2f(x1)=f(x2)x1=x2
  3. f

Denetimli öğrenme için bu koşullar ihlal edilebilir, çünkü:

  1. Belirli bir giriş için ayrı bir çıktı olmayabilir.
  2. Eğitim örneklerinde benzersiz bir giriş-çıkış eşlemesi oluşturmak için yeterli bilgi olmayabilir (çünkü farklı algoritma örnekleri üzerinde öğrenme algoritmasını çalıştırmak farklı eşleme işlevleriyle sonuçlanır).
  3. Verilerdeki gürültü, rekonstrüksiyon sürecine kararlılığını etkileyebilecek belirsizlik ekler.

Tikhonov, bu tür "kötü durumdaki" sorunları çözmek için, çözüm hakkında önceden bilgi içeren negatif olmayan bir işlev ekleyerek çözümü stabilize etmek için bir düzenleme yöntemi önerdi.

Önceki bilgilerin en yaygın biçimi, girdi-çıktı eşleme işlevinin düzgün olduğu varsayımını içerir - yani benzer girdiler benzer çıktılar üretir.

λfλ

λ

Bu tür düzenli maliyet fonksiyonlarına bazı örnekler:

Doğrusal Regresyon:

J(θ)=1mi=1m[hθ(xi)yi]2+λ2mj=1nθj2

Lojistik regresyon:

J(θ)=1mi=1m[yilog(hθ(xi))(1yi)log(1hθ(xi))]+λ2mj=1nθj2

θxhθ(x)y

L2

Düzenlemenin uygulanmasının net etkisi, aşırı uyumu azaltan model karmaşıklığını azaltmaktır. Düzenlemeye yönelik diğer yaklaşımlar (yukarıdaki örneklerde listelenmemiştir), daha basit ağaçlar yapmak için düğümleri bırakarak, regresyon / sınıflandırma Ağaçlar, güçlendirilmiş ağaçlar, vb. Daha yakın zamanda bu, sinir ağındaki nöronlar arasındaki bağlantıların kesilmesiyle "derin öğrenme" denilen bir uygulama olmuştur.

Üçüncü çeyreğe verilen özel bir cevap, Rastgele Orman (veya benzer oylama şemaları) gibi bazı toplanma yöntemlerinin, doğası gereği yöntemlerinden dolayı düzenlileştirme elde etmesidir, yani yanıtı düzenlenmemiş Ağaçlar koleksiyonundan oylama ve seçme. Her ne kadar tek tek ağaçlarda fazlalık olsa da, sonuçlarının "ortalamasını alma" süreci, topluluğun eğitim setine fazla sığmasını engeller.

DÜZENLE:

Düzenlilik kavramı aksiyomatik küme teorisine aittir, işaretçiler için bu makaleye başvurabilirsiniz - en.wikipedia.org/wiki/Axiom_of_regularity ve ayrıntılarla ilgileniyorsanız bu konuyu daha fazla inceleyebilirsiniz.

Sinir ağları için regülasyonda: Geri yayılma algoritmasını çalıştırırken ağırlıkları ayarlarken, regülasyon terimi maliyet fonksiyonuna doğrusal ve lojistik regresyon örnekleriyle aynı şekilde eklenir. Dolayısıyla, düzenleyici terimin eklenmesi, geri yayılmanın küresel minimaya ulaşmasını engeller.

Sinir ağları için toplu normalleştirmeyi açıklayan makale - Toplu Normalleştirme: Dahili Eş Değişimi Azaltarak Derin Ağ Eğitimini Hızlandırma, Ioffe, Szegedy, 2015. Giriş değişkenleri normalleştirildiğinde sinir ağını eğitmek için geri çoğaltmanın daha iyi çalıştığı bilinmektedir. Bu yazıda yazarlar, bir nöral ağın birçok katmanını eğitirken "gradyanları yok etme" probleminden kaçınmak için Stokastik Degrade İnişte kullanılan her bir mini partiye normalizasyon uyguladılar. Kağıtlarında açıklanan algoritma, her bir aktivasyon katmanı için her bir parti içinde hesaplanan ortalama ve varyansı, mini-grup SGD'de optimize edilmiş başka bir parametre seti olarak (NN ağırlıklarına ek olarak) ele alır. Daha sonra aktivasyonlar tüm eğitim seti kullanılarak normalleştirilir. Bu algoritmanın tüm ayrıntıları için makalelerine başvurabilirsiniz. Bu yöntemi kullanarak, normalleştirme için kesintileri kullanmaktan kaçınabildiler ve bu nedenle bunun başka bir düzenlenme türü olduğu iddiası.


harika cevap için teşekkürler. Normalleştirme gibi yöntemlerin düzenlileştirmeye nasıl ulaştığını matematiksel olarak biraz açıklayabilir misiniz? Goodfellow'un yaptığı konuşmada, farklı olan her şeyin sinir ağı için düzenleyici olarak hareket edebileceğini söyledi. Ayrıca, düzenliliğin ne olduğunu biliyor musunuz? sadece kalıplar mı demek istiyor, yoksa bunun arkasında matematik var mı? Tekrar teşekkürler.
Rafael

Cevap için teşekkürler. Konuşmayı hatırlayamıyorum. Sinir ağlarında parti normalizasyonu gibi katmanlar ekliyoruz. Düzenlemeye katkıda bulunduklarını bilmek istedim?
Rafael

Yorumunuza cevap vermek ve önceki yorumlarda verilen cevapları eklemek için düzenlendi.
Sandeep S. Sandhu

3

Soru 1

Kanonik bir tanımın farkında değilim ve sorularınız bu terimin farklı anlamlarla kullanıldığını gösteriyor. Basit örneklerle başlayalım (soru 2'ye cevap verecektir).

soru 2

Mahya regresyon iyi başlangıç noktası olabilir. Tekil bir matrisin gündeme getirdiği sorunu atlatan bir düzenleme yöntemidir .

Bununla birlikte, gradyan artırma yöntemlerinde (örnek başına) tanımlanan "normalleştirme parametresi" , model için düşük bir karmaşıklık sağlamak için buradadır .

Soru 3

Düzenleme olarak normalleşmenin başka bir anlamı daha vardır (ve bu terminoloji oldukça yanıltıcıdır). "Degrade iniş açısından" karmaşık bir problemi daha basit bir şeye dönüştürür. Bir sinir ağını kalibre etmek gerekmese de, kalibrasyon sırasında gerçekten yardımcı olur. (Ancak, keyfi işlevlerin küresel ekstrüzyonunu bulabilirsek, normalleştirmeye gerek olmayacağını unutmayın)

Soru 4

Düzenlemeyi (bir modelin karmaşıklığını azaltmanın bir yolu olarak) fazlalığı azaltmak için kullanılır. Bir model ne kadar az karmaşıksa, fazla takma olasılığı o kadar az olur.

bir kenara

S. Watanabe , araştırmasında bu terminolojiyi titizlikle kullanmaktadır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.