«regularization» etiketlenmiş sorular

Model yerleştirme sürecine ek kısıtlamaların (genellikle karmaşıklık için bir ceza) dahil edilmesi. Aşırı sığmayı önlemek / tahmin doğruluğunu artırmak için kullanılır.

1
Regresyonda verileri merkezleme ve standartlaştırma ihtiyacı
Bazı regülasyonlarla doğrusal regresyon düşünün: Örn , küçülten Bul | | A x - b | | 2 + λ | | x | | 1xxx||Ax−b||2+λ||x||1||Ax−b||2+λ||x||1||Ax - b||^2+\lambda||x||_1 Genellikle A sütunları sıfır ortalama ve birim normlara sahip olacak şekilde standartlaştırılırken, sıfır ortalamaya sahip olacak şekilde ortalanır. Standartlaşma ve merkezleme nedenine …

1
Bir lmer modeli için hangi çoklu karşılaştırma yöntemi kullanılır: lsmeans veya glht?
Bir veri setini bir sabit efekt (durum) ve iki rastgele efekt (katılımcı konu tasarımı ve çifti nedeniyle katılımcı) ile karışık efektler modeli kullanarak analiz ediyorum. Model ile oluşturulan lme4paket: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Sonra, bu modelin sabit etki (durum) olmadan modele karşı bir olasılık oranı testi yaptım ve önemli bir farkım var. Veri …

2
L2 norm kaybı neden benzersiz bir çözüme sahiptir ve L1 norm kaybı muhtemelen birden fazla çözüme sahiptir?
http://www.chioka.in/differences-between-l1-and-l2-as-loss-function-and-regularization/ Bu yazının üst kısmına bakarsanız, yazar L2 normunun benzersiz bir çözüme sahip olduğunu ve L1 normunun muhtemelen birçok çözüme sahip olduğunu belirtir. Bunu normalleştirme açısından anlıyorum, ancak kayıp fonksiyonunda L1 normunu veya L2 normunu kullanma açısından değil. Skaler x (x ^ 2 ve | x |) işlevlerinin grafiklerine bakarsanız, …

2
Büzülme neden gerçekten işe yarıyor, 0 hakkında bu kadar özel olan ne?
Bu sitede aynı sorundan bahseden bir yazı zaten var: Büzülme neden işe yarıyor? Ancak, cevaplar popüler olmasına rağmen, sorunun özünün gerçekten ele alındığına inanmıyorum. Tahminde bazı yanlılıkların ortaya çıkmasının varyansta azalmaya neden olduğu ve tahmin kalitesini artırabileceği oldukça açıktır. Ancak: 1) Önyargı getirerek verilen hasar neden varyans kazancına kıyasla daha …

1
ARIMA modelleri için düzenlileştirme
Doğrusal regresyon modellerinde LASSO, sırt ve elastik-net regülasyonun farkındayım. Soru: Bu (veya benzeri) cezalandırılmış bir tahmin ARIMA modellemesine (boş MA parçası olmadan) uygulanabilir mi? ARIMA modellerini oluştururken, önceden seçilmiş bir maksimum gecikme sırasını ( , ) düşünün ve ardından bazı en uygun siparişi seçin ve q \ leqslant q_ {max} …

4
Sırt regresyonunun eşdeğer formüllerinin kanıtı
İstatistiksel öğrenmede en popüler kitapları okudum 1- İstatistiksel öğrenmenin öğeleri. 2- İstatistiksel öğrenmeye giriş . Her ikisi de sırt regresyonunun eşdeğer iki formüle sahip olduğunu belirtiyor. Bu sonucun anlaşılabilir bir matematiksel kanıtı var mı? Ben de Cross Validated geçtim, ama orada kesin bir kanıt bulamıyorum. Dahası, LASSO da aynı kanıt …

3
Çevrimiçi öğrenmede düzenlileştirme ve özellik ölçeklendirme?
Diyelim ki lojistik regresyon sınıflandırıcım var. Normal toplu öğrenmede, aşırı sığmayı önlemek ve ağırlıkları küçük tutmak için düzenli bir terim olurdu. Ayrıca özelliklerimi normalleştirip ölçeklendirirdim. Çevrimiçi öğrenme ortamında sürekli bir veri akışı alıyorum. Her örnekle degrade iniş güncellemesi yapıyorum ve sonra atıyorum. Çevrimiçi öğrenmede özellik ölçeklendirme ve düzenleme terimini kullanmam …


1
Kementte 0 bileşen veren en küçük
Kement tahminini burada \ mathbb {R} ^ {n \ times p} tasarım matrisinin X \ i {{} x_i \ satırı {R} ^ p bir vektördür stokastik cevabı açıklamak için ortak değişkenler y_i ( i = 1, \ dots n için ).β^λ=argminβ∈Rp12n∥y−Xβ∥22+λ∥β∥1,β^λ=arg⁡minβ∈Rp12n‖y−Xβ‖22+λ‖β‖1,\hat\beta^\lambda = \arg\min_{\beta \in \mathbb{R}^p} \frac{1}{2n} \|y - X \beta\|_2^2 …


1
JAGS'ta düzenli bayes lojistik regresyonu
Bayesian Kement açıklayan birkaç matematik ağır kağıt vardır, ama ben test etmek istiyorum, ben kullanabileceğiniz doğru JAGS kodunu istiyorum. Birisi düzenli lojistik regresyonu uygulayan örnek BUGS / JAGS kodu gönderebilir mi? Herhangi bir şema (L1, L2, Elastik ağ) harika olurdu, ancak Kement tercih edilir. Ayrıca ilginç alternatif uygulama stratejileri olup …

4
Normları - ilgili özel olan nedir ?
Bir normu benzersizdir (en azından kısmen), çünkü dışbükey olmayan ve dışbükey arasındaki . Bir normu 'en seyrek' dışbükey normdur (değil mi?).L1L1L_1p=1p=1p=1L1L1L_1 I anlamak Öklid norm geometrisinde kökleri ve boyutlar aynı birimlere sahip olduğunda net bir yoruma sahiptir. Ama neden diğer gerçek sayılar üzerinde tercihli olarak kullanıldığını anlamıyorum : ? ? …

1
Veri matrisi diyagonal olduğunda kement problemine kapalı form çözümü
Sorunumuz\newcommand{\diag}{\operatorname{diag}} var: minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),\min_{w\in\mathbb{R}^{d}}\left( \frac{1}{n}\sum_{i=1}^{n} \left( \langle w,x_{i}\rangle-y_{i} \right)^{2} +2\lambda||w||_1\right), şu varsayımla: ∑i=1nxixTi=diag(σ21,...,σ2d).∑i=1nxixiT=diag⁡(σ12,...,σd2).\sum_{i=1}^nx_ix_i^T=\diag(\sigma_1^2,...,\sigma_d^2). Bu durumda kapalı bir çözüm var mı? Ben var: (XTX)−1=diag(σ−21,...,σ−2d),(XTX)−1=diag⁡(σ1−2,...,σd−2),(X^TX)^{-1}=\diag\left(\sigma_1^{-2},...,\sigma_d^{-2}\right), ve bu yüzden cevap olduğunu düşünüyorum : wj=yjmax{0,1−λn|yj|},wj=yjmax{0,1−λn|yj|},w\,^j=y\,^j\max\left\{0,1-\lambda \frac{n}{|y^j|}\right\}, için yj=∑i=1nyixijσ2iyj=∑i=1nyixijσi2y\,^j=\displaystyle\sum_{i=1}^n\frac{y_ix_i\,^j}{\sigma_i^2} , ancak emin değilim.

1
Küçük veri kümesinde LSTM'nin aşırı takılmasını önleme
80 boyutlu bir word2vec benzeri temsil kullanarak 128 gizli birimleri ile tek bir katman LSTM kullanarak duygu tahmini için 15000 tweet modelleme. 1 çağdan sonra bir iniş doğruluğu (rastgele% 38 =% 20) alıyorum. Daha fazla eğitim, eğitim doğruluğu tırmanmaya başladığında doğrulama doğruluğunun azalmaya başlamasını sağlar - açık bir aşırı sığdırma …

1
Önyargı-varyans ayrışması
Bishop'un Örüntü Tanıma ve Makine Öğreniminin 3.2. Bölümünde , bir kare kaybı fonksiyonu için beklenen kaybın kare şeklinde bir önyargı terimine ayrılabileceğini belirten sapma-varyans ayrışmasını tartışır (bu, ortalama tahminlerin doğrudan ne kadar uzak olduğunu açıklar) model), bir varyans terimi (tahminlerin ortalamanın etrafına yayılmasını tanımlar) ve bir gürültü terimi (verilerin gerçek …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.