«regularization» etiketlenmiş sorular

Model yerleştirme sürecine ek kısıtlamaların (genellikle karmaşıklık için bir ceza) dahil edilmesi. Aşırı sığmayı önlemek / tahmin doğruluğunu artırmak için kullanılır.

5
Ridge ve LASSO normları
Bu yazı bunu takip ediyor: Çapraz tahmin, diyagonal bir sabit ekleyerek neden OLS'den daha iyi hale geliyor? İşte sorum: Bildiğim kadarıyla, sırt düzenlenmesi normu (öklid mesafesi) kullanır. Ama neden bu normun karesini kullanıyoruz? ( doğrudan uygulanması , beta kare toplamının kare kökü ile sonuçlanır).ℓ 2ℓ2ℓ2\ell_2ℓ2ℓ2\ell_2 Bir karşılaştırma olarak, bunu düzenlemek …


3
Uzayda keyfi bir noktaya L2 düzenlenmesi nasıl uygulanır?
İşte Ian Goodfellow'un Deep Learning kitabında okuduğum bir şey . Sinir ağları bağlamında, "L2 parametre normu cezası genellikle ağırlık azalması olarak bilinir. Bu düzenleme stratejisi ağırlıkları başlangıç ​​noktasına yakınlaştırır [...]. Daha genel olarak, parametreleri herhangi bir noktaya yakın olacak şekilde düzenleyebiliriz ancak model parametrelerini sıfıra doğru düzenlemek çok daha yaygındır. …

2
Hata oranı lambda Düzenleme parametresinin Dışbükey işlevi midir?
Ridge veya Lasso'daki lambda düzenleme parametresini seçerken önerilen yöntem lambda'nın farklı değerlerini denemek, Doğrulama Kümesindeki hatayı ölçmek ve son olarak en düşük hatayı döndüren lambda değerini seçmektir. F (lambda) = hatası Convex ise bu benim için bir sorun değil. Böyle olabilir mi? Bu eğrinin birden fazla yerel minimi olabilir (bu, …

3
Düzenleme teknikleri rastgele etkiler modelinde kullanılabilir mi?
Düzenleme teknikleri ile kement, sırt regresyonu, elastik ağ ve benzerlerinden bahsediyorum. Yatarak tedavi gören hastaların kalış sürelerinin tahmin edildiği demografik ve tanı verilerini içeren sağlık hizmeti verileri üzerinde bir öngörme modeli düşünün. Bazı bireyler için, başlangıç ​​süresi boyunca ilişkili olan çoklu LOS gözlemleri (yani birden fazla IP bölümü) vardır. Örneğin, …


1
LASSO ilişkisi
LASSO regresyonu konusundaki anlayışım, minimizasyon problemini çözmek için regresyon katsayılarının seçildiğidir: minβ∥y−Xβ∥22 s.t.∥β∥1≤tminβ‖y−Xβ‖22 s.t.‖β‖1≤t\min_\beta \|y - X \beta\|_2^2 \ \\s.t. \|\beta\|_1 \leq t Uygulamada bu, bir Lagrange çarpanı kullanılarak yapılır ve sorunu çözme minβ∥y−Xβ∥22+λ∥β∥1minβ‖y−Xβ‖22+λ‖β‖1\min_\beta \|y - X \beta\|_2^2 + \lambda \|\beta\|_1 λλ\lambda ve t arasındaki ilişki nedir ttt? Vikipedi yararsız …


1
Kement tasarım matrisi boyutuyla nasıl ölçeklenir?
tasarım matrisim varsa , burada boyut gözlemlerinin sayısı ise, için çözmenin karmaşıklığı nedir? LASSO, wrt ve ? Cevabın , başka türlü hissetmedikçe, yineleme sayısının (yakınsama) nasıl ölçeklendiğinden ziyade, bir LASSO yinelemesinin bu parametrelerle nasıl ölçeklendiğini belirtmesi gerektiğini düşünüyorum .X∈ Rn × dX∈Rn×dX\in\mathcal{R}^{n\times d}d β = argmin β 1nnndddNdβ^= argminβ12 n| …

3
LASSO'nun (düzenlileşme) nasıl çalıştığını gerçekten anlamadığımızı söylediklerinde istatistikçiler ne anlama geliyor?
Son zamanlarda Kement üzerinde birkaç istatistik görüşmesi yaptım (düzenlileştirme) ve ortaya çıkmaya devam eden bir nokta, Kement'in neden çalıştığını veya neden bu kadar iyi çalıştığını gerçekten anlamamamız. Bu ifadenin ne anlama geldiğini merak ediyorum. Açıkçası, Lasso'nun teknik olarak neden çalıştığını, parametrelerin daralmasıyla aşırı sığmayı önleyerek, ama böyle bir ifadenin arkasında …

1
Genel bir iyileştirici kullanarak glmnet doğrusal regresyonu için sonuçları çoğaltma
Başlık belirtildiği gibi, ben kütüphaneden LBFGS optimizer kullanarak glmnet doğrusal sonuçları çoğaltmaya çalışıyorum lbfgs. Bu optimize edici, objektif fonksiyonumuz (L1 düzenleyici terimi olmadan) dışbükey olduğu sürece, farklılaşma konusunda endişelenmenize gerek kalmadan bir L1 düzenleyici terim eklememizi sağlar. Esnek ağ doğrusal regresyon sorun glmnet kağıdı ile verilir burada X \ in …

4
Stokastik matrisler için seyreklik düzenleyici düzenlenme
L1L1L_1AAAb⃗ b→\vec{b} λ > 0 A → b λ → xfA , b⃗ ( x⃗ ) = ∥ A x⃗ - b⃗ ∥22+ λ ∥ x⃗ ∥1fA,b→(x→)=‖Ax→−b→‖22+λ‖x→‖1f_{A,\vec{b}}(\vec{x})=\|A\vec{x}-\vec{b}\|_2^2+\lambda\|\vec{x}\|_1λ > 0λ>0\lambda>0birAAb⃗ b→\vec{b}λλ\lambdax⃗ x→\vec{x} Ancak, değerini girişlerinin pozitif ve eşit olması , teriminin herhangi bir etkisi olmaz (çünkü fiat tarafından). Bu durumda ortaya …

2
Düzenleme normu ve normu ampirik çalışması
gerçekleştirmek için birçok yöntem vardır - , ve normuna dayalı düzenlileştirme. Göre Friedman Hastie ve Tibsharani yani gerçek hedef fonksiyonu, kullanılan özel olarak, sinyal-gürültü oranı doğası ve örnek büyüklüğü: En iyi regularizer sorununa bağlı olarak değişir.L0L0L_0L1L1L_1L2L2L_2 Çeşitli düzenleme yöntemlerinin performansını ve performansını karşılaştıran ampirik araştırmalar var mı?

4
Düzenleme: neden 1 / 2m ile çarpalım?
In hafta 3 ders notları arasında Andrew Ng adlı Coursera Machine Learning sınıfının bir terim düzene bağlama uygulamak için maliyet fonksiyonu eklenir: J+( θ ) = J( θ ) +λ2 mΣj = 1nθ2jJ+(θ)=J(θ)+λ2mΣj=1nθj2J^+(\theta) = J(\theta) + \frac{\lambda}{2m} \sum_{j=1}^n \theta_j^2 Ders notları şunları söylüyor: Ayrıca tüm teta parametrelerimizi tek bir özetle …

1
L2 ile RNN Düzenlemesi öğrenmeyi durdurur
Dengesiz bir olayı tespit etmek için Çift Yönlü RNN kullanıyorum. Pozitif sınıf, negatif sınıftan 100 kat daha azdır. Düzenleme kullanımı olmamasına rağmen tren setinde% 100, doğrulama setinde% 30 doğruluk elde edebilirim. L2 regülasyonunu açtım ve sonuç, daha uzun öğrenme yerine tren setinde sadece% 30 doğruluk ve doğrulama setinde% 100 doğruluk. …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.