«optimization» etiketlenmiş sorular

İstatistiklerdeki optimizasyonların herhangi bir kullanımı için bu etiketi kullanın.

1
Saf bayes sınıflandırıcısı neden 0-1 kaybı için optimal?
Naive Bayes sınıflandırıcısı, sınıf üyeliği için arka değerini en üst düzeye çıkararak öğelerini bir sınıfına atayan ve öğelerin özelliklerinin bağımsız olduğunu varsayan sınıflandırıcıdır .C P ( C | x )xxxCCCP(C|x)P(C|x)P(C|x) 0-1 kaybı, herhangi bir yanlış sınıflandırmaya "1" kaybı ve doğru sınıflandırmaya "0" kaybı atayan kayıptır. Sık sık (1) "Naive Bayes" …

3
PCA optimizasyonu dışbükey midir?
Temel Bileşen Analizi (PCA) objektif fonksiyonu L2 norm yöntemi hatasını minimize edilir (bölüm 2.12 bakınız burada başka görüş projeksiyonda varyansı maksimize etmeye çalışıyor Biz de burada mükemmel bir yazı var.:. PCA nesnel işlevi nedir ? ). Benim sorum şu ki PCA optimizasyonu dışbükey mi? ( Burada bazı tartışmalar buldum , …

1
Pratikte “Saddle-Free Newton” iniş algoritması kullanılmıyor?
Son zamanlarda Yann Dauphin ve ark. Saddle-Free Newton adında ilginç bir iniş algoritması getirdikleri, yüksek boyutlu dışbükey olmayan optimizasyonda eyer noktası problemini tanımlama ve saldırı , bu da sinir ağı optimizasyonu için tam olarak uyarlanmış gibi görünür ve eyer noktalarında sıkışmaktan muzdarip olmamalıdır vanilya SGD gibi birinci dereceden yöntemler gibi. …




1
Gauss Proses Regresyonunda Hiperparametre Ayarı
log(y|X,θ)=−12yTK−1yy−12log(det(K))−n2log(2π)log⁡(y|X,θ)=−12yTKy−1y−12log⁡(det(K))−n2log⁡(2π)\log(\mathbf{y}|X,\mathbf{\theta})=-\frac{1}{2} \mathbf{y}^TK_y^{-1}\mathbf{y}-\frac{1}{2}\log(\det(K))-\frac{n}{2}\log(2\pi)KKKKij=k(xi,xj)=b−1exp(−12(xi−xj)TM(xi−xj))+a−1δijKij=k(xi,xj)=b−1exp⁡(−12(xi−xj)TM(xi−xj))+a−1δijK_{ij}=k(x_i,x_j)=b^{-1}\exp(-\frac{1}{2}(x_i-x_j)^TM(x_i-x_j))+a^{-1}\delta_{ij}M=lIM=lIM=lIa,ba,ba,blll log marjinal olabilirlik wrt parametrelerinin kısmi türevi aşağıdakilog(y|X,θ)dθ=12trace(K−1dKdθ)+12(ydKdθK−1dKdθy)log⁡(y|X,θ)dθ=12trace(K−1dKdθ)+12(ydKdθK−1dKdθy)\frac{\log(\mathbf{y}|X,\mathbf{\theta})}{d\theta}=\frac{1}{2}\mathrm{trace}(K^{-1}\frac{dK}{d\theta})+\frac{1}{2}(\mathbf{y}\frac{dK}{d\theta}K^{-1}\frac{dK}{d\theta}\mathbf{y}) girişleri parametrelere bağlı olduğundan, türevler ve tersi de geçerlidir . Bu, gradyan tabanlı bir optimize edici kullanıldığında, gradyanın belirli bir noktada (parametre değeri) değerlendirilmesi, kovaryans matrisinin yeniden hesaplanmasını gerektireceği anlamına gelir. Benim uygulamada, bu mümkün değildir çünkü kovaryans matrisini sıfırdan …

2
Simpleks yöntemle en az mutlak sapmayı nasıl çözebilirim?
İlgili en az mutlak sapma sorunu:. LP problemi olarak aşağıdaki şekilde yeniden düzenlenebileceğini biliyorum:argminwL ( w ) = ∑ni = 1| yben- wTx |arg⁡minwL(w)=∑i=1n|yi−wTx| \underset{\textbf{w}}{\arg\min} L(w)=\sum_{i=1}^{n}|y_{i}-\textbf{w}^T\textbf{x}| min ∑ni = 1ubenmin∑i=1nui\min \sum_{i=1}^{n}u_{i} uben≥ xTw - ybeni = 1 , … , nui≥xTw−yii=1,…,nu_i \geq \textbf{x}^T\textbf{w}- y_{i} \; i = 1,\ldots,n uben≥ - …

1
Varsayılan lme4 optimizer, yüksek boyutlu veriler için çok sayıda yineleme gerektirir
TL; DR: lme4optimizasyon varsayılan olarak model parametreleri sayısında lineer olarak görünmektedir ve bir yolu eşdeğer daha yavaş glmgruplar için kukla değişkenlerle modeli. Hızlandırmak için yapabileceğim bir şey var mı? Oldukça büyük bir hiyerarşik logit modeli (~ 50k satır, 100 sütun, 50 grup) sığdırmaya çalışıyorum. Verilere normal bir logit modeli takmak …

2
KKT Kullanarak Norm Düzenli Regresyon ve Norm Kısıtlı Regresyon Arasındaki Eşdeğerliği Gösterme
Referanslarına göre Kitap 1 , Kitap 2 ve kağıt . Düzenli regresyon (Ridge, LASSO ve Elastik Ağ) ile bunların kısıtlayıcı formülleri arasında bir denklik olduğu belirtilmiştir. Ayrıca Çapraz Doğrulanmış 1 ve Çapraz Doğrulanmış 2'ye de baktım , ancak denklik veya mantığı gösteren net bir cevap göremiyorum. Sorum şu Karush – …


1
RMSProp ve Adam ve SGD
RMSProp, Adam ve SGD ile ağları kullanarak EMNIST doğrulama seti üzerinde deneyler yapıyorum. SGD (öğrenme oranı 0.1) ve bırakma (0.1 bırakma probu) ile L2 düzenlenmesi (1e-05 cezası) ile% 87 doğruluk elde ediyorum. RMSProp ve Adam ile aynı yapılandırmayı ve 0.001 başlangıç ​​öğrenme oranını test ederken,% 85 doğruluk ve daha az …

2
Makine öğreniminde optimizasyon hedefi olarak Pearson korelasyon katsayısını kullanın
Makine öğreniminde (regresyon sorunları için) genellikle ortalama kare hatası (MSE) veya ortalama-mutlak hata (MAE) işlevini en aza indirgemek için (artı normalleştirme terimini) hata olarak kullanıyorum. Korelasyon katsayısının kullanılmasının daha uygun olacağı durumlar olup olmadığını merak ediyorum. böyle bir durum varsa, o zaman: Hangi durumlarda korelasyon katsayısı MSE / MAE'ye göre …

2
Belirli bir yanıt değişkenine göre Optimal Binning
Belirli bir yanıt (hedef) ikili değişken ve sürekli olarak parametre olarak aralıkların maksimum sayısı ile sürekli değişken en iyi binning yöntemi (ayrıklaştırma) arıyorum. örnek: "yükseklik" (sürekli sayısal) ve "has_back_pains" (ikili) değişkenleri olan insanların gözlemleri bir dizi var. Yüksekliği en fazla 3 aralıkta (grup) ayrıştırmak istiyorum, bu yüzden algoritma gruplar arasındaki …

1
Düzenleme ile lagrange çarpanları yöntemi arasındaki bağlantı nedir?
İnsanların fazla uymasını önlemek için insanlar , doğrusal regresyonun maliyet fonksiyonuna bir düzenleme parametresi ile bir modelleme terimi (modelin parametrelerinin kare toplamıyla orantılı) ekler λλ\lambda. Bu parametresi λλ\lambdabir lagrange çarpanı ile aynı mıdır? Düzenleme, lagrange çarpanı yöntemiyle aynı mıdır? Veya bu yöntemler nasıl bağlanır?

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.