«regularization» etiketlenmiş sorular

Model yerleştirme sürecine ek kısıtlamaların (genellikle karmaşıklık için bir ceza) dahil edilmesi. Aşırı sığmayı önlemek / tahmin doğruluğunu artırmak için kullanılır.



3
Kement neden Değişken Seçim sağlıyor?
İstatistiksel Öğrenme Öğelerini okudum ve Lasso'nun neden değişken seçim sağladığını ve sırt regresyonunun neden olmadığını bilmek istiyorum. Her iki yöntem de artık kareler toplamını en aza indirir ve parametrelerinin olası değerleri üzerinde bir kısıtlamaya sahiptir . Kement için sınırlama iken, sırt için bazı için .| | β | | 1 …

5
Sade ingilizcede normalleşme nedir?
Diğer makalelerden farklı olarak, bu konu için wikipedia girişini matematik olmayan bir kişi için (benim gibi) okunamayan buldum . Temel fikri anladım, daha az kuralı olan modelleri tercih edersiniz. Alamadığım şey, bir dizi kuraldan, modelleri en azından en fazla giydirmeye sıralamak için kullanabileceğiniz bir 'normalizasyon puanına' nasıl ulaşacağınızdır. Basit bir …


2
Büzülme neden işe yarıyor?
Model seçimindeki problemleri çözmek için, bir dizi yöntem (LASSO, ridge regresyon, vb.) Yordayıcı değişkenlerinin katsayılarını sıfıra çekecektir. Bunun neden tahmin edilebilirliği geliştirdiğine dair sezgisel bir açıklama arıyorum. Değişkenin gerçek etkisi aslında çok büyükse, neden parametreyi küçültmek daha kötü bir tahminle sonuçlanmıyor?

7
Düzenleme terimi * maliyet işlevine * eklenmiştir (çarpım yerine vs.)?
Düzenleme kullanıldığında, genellikle aşağıdaki maliyet işlevindeki gibi maliyet işlevine eklenir. Bu, ekranın küçültülmesinden beri sezgisel bir anlam ifade eder. maliyet fonksiyonu, aynı zamanda hatayı minimize etmek (sol terim) ve katsayıların büyüklüğünü (doğru terim) en aza indirmek (veya en azından iki minimizasyonu dengelemek) anlamına gelir.J(θ)=12(y−θXT)(y−θXT)T+α∥θ∥22J(θ)=12(y−θXT)(y−θXT)T+α‖θ‖22 J(\theta)=\frac 1 2(y-\theta X^T)(y-\theta X^T)^T+\alpha\|\theta\|_2^2 Sorum …

6
Sırt regresyonu yüksek boyutlarda işe yaramaz mı (
İle iyi eski regresyon problemi düşünün belirleyicileri ve örnek büyüklüğü . Her zamanki bilgelik, OLS tahmincisinin fazladan donacağı ve genel olarak ridge regresyon tahmincisi tarafından daha iyi şekillendirileceğidir:Optimal düzenlileştirme parametresi bulmak için çapraz doğrulama kullanmak standarttır . Burada 10 kat CV kullanıyorum. Açıklama güncellemesi: olduğunda "OLS tahmincisi" tarafından tarafından verilen …

6
Modern istatistik / makine öğreniminde neden çoklu doğrusallık kontrol edilmiyor?
Geleneksel istatistiklerde, bir model oluştururken, varyans enflasyon faktörünün (VIF) tahminleri gibi yöntemleri kullanarak çok doğrusallığı kontrol ediyoruz, ancak makine öğreniminde, bunun yerine özellik seçimi için düzenlileştirme kullanıyoruz ve özelliklerin birbiriyle ilişkili olup olmadığını kontrol etmiyoruz. hiç. Neden bunu yapıyoruz?

3
Lojistik regresyon için düzenlileştirme yöntemleri
Ridge, Lasso, ElasticNet gibi yöntemler kullanılarak yapılan düzenlileştirme doğrusal regresyon için oldukça yaygındır. Aşağıdakileri bilmek istedim: Bu yöntemler lojistik regresyon için uygulanabilir mi? Öyleyse, lojistik regresyon için kullanılması gereken farklılıklar var mı? Bu yöntemler uygulanabilir değilse, lojistik regresyon nasıl düzenlenir?

1
Yapay Sinir Ağları: kilo değişimi momentum ve kilo kaybı
Momentum , ardışık yinelemelere göre ağırlık değişimlerindeki dalgalanmaları azaltmak için kullanılır:αα\alpha D(a), bir hata fonksiyonuw- ağırlıklarının vektörüη- öğrenme oranı.Δ ωben( t + 1 ) = - η∂E∂wben+ α Δ ωben( t ) ,Δωben(t+1)=-η∂E∂wben+αΔωben(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t),E( w )E(w)E({\bf w})ww{\bf w}ηη\eta Ağırlık azalması , ağırlık …


3
Çapraz doğrulama kullanılırken bir standart hata kuralı için ampirik gerekçe
Tek bir standart hata kuralının para cezası lehine kullanılmasını haklı çıkaran ampirik çalışmalar var mı? Açıkçası, verilerin veri oluşturma sürecine bağlıdır, ancak büyük bir veri kümesini analiz eden herhangi bir şey çok ilginç bir okuma olacaktır. Modeller çapraz onaylama yoluyla (veya daha genel olarak herhangi bir randomizasyon temelli prosedür aracılığıyla) …

7
Düzenleme neden Derin Sinir Ağlarını veri açlığına dönüştürmüyor?
Genel olarak Sinir Ağları ve özellikle de Derin Sinir Ağları bağlamında sıkça gündeme getirdiğim bir sorun, onların "aç veri" olduğudur - büyük bir veri setimiz olmadığı sürece iyi performans göstermiyorlar. hangi ağı eğitmek için. Anladığım kadarıyla, bunun NNets'in, özellikle Deep NNets'in çok fazla serbestlik derecesine sahip olmasından kaynaklanıyor olmasıdır. Dolayısıyla, …


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.