«gradient-descent» etiketlenmiş sorular

Degrade iniş birinci dereceden yinelemeli bir optimizasyon algoritmasıdır. Degrade iniş kullanarak bir işlevin yerel bir minimumunu bulmak için, geçerli noktadaki işlevin degradesinin (veya yaklaşık degradenin) negatifiyle orantılı adımlar atılır. Stokastik gradyan iniş için [sgd] etiketi de vardır.

2
Degrade iniş, bu veri kümesindeki sıradan en küçük karelere çözüm bulamıyor mu?
Doğrusal regresyonu inceledim ve x'in evin alanını metre kare cinsinden ve y'nin fiyatı dolar cinsinden belirlediği {{x, y)} setinin altında denedim. Bu Andrew Ng Notes'taki ilk örnektir . 2104.400 1600.330 2400.369 1416.232 3000.540 Bir örnek kod geliştirdim ama çalıştırdığımda maliyet her adımda artıyor, her adımda azalıyor. Kod ve çıktı aşağıda …

2
Minibatch gradyan inişi, bir toplu işteki her örnek için ağırlıkları nasıl günceller?
Bir partide 10 örnek söylersek, her örnek için kaybı toplayabileceğimizi anlıyorum, ancak backpropagation her örnek için ağırlıkların güncellenmesinde nasıl çalışır? Örneğin: Örnek 1 -> kayıp = 2 Örnek 2 -> kayıp = -2 Bu ortalama 0 (E = 0) kaybıyla sonuçlanır, bu yüzden bu her bir ağırlığı nasıl güncelleyip birleşir? …


2
Kalan Ağlar Gradyan Arttırmayla mı ilgili?
Son zamanlarda, Artık Sinir ortaya çıktığını gördük, burada, her kat, bir hesaplama modülü ve katmanın girişini koruyan katmanın çıktısı gibi bir kısayol bağlantısından oluşur : cicic_iyi+1=ci+yiyi+1=ci+yi y_{i+1} = c_i + y_i Ağ, kalan özelliklerin izin verir ve kaybolan gradyan sorununa karşı daha sağlam olmasının yanı sıra son teknoloji performansa ulaşarak …

1
R / mgcv: te () ve ti () tensör ürünleri neden farklı yüzeyler üretir?
mgcvİçin paket Rtensör ürün etkileşimleri uydurma için iki işlevi vardır: te()ve ti(). İkisi arasındaki temel işbölümünü anlıyorum (doğrusal olmayan bir etkileşime uymak ve bu etkileşimi ana etkilere ve etkileşime ayırmak). Anlamadığım şey neden te(x1, x2)ve ti(x1) + ti(x2) + ti(x1, x2)(biraz) farklı sonuçlar üretebilir. MWE (uyarlanmıştır ?ti): require(mgcv) test1 <- …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 


4
Gradient Descent vs Monte Carlo ne zaman sayısal optimizasyon tekniği olarak kullanılır?
Bir denklem seti analitik olarak çözülemezse, bir degrade iniş algoritması kullanabiliriz. Ancak analitik çözümleri olmayan problemleri çözmek için kullanılabilecek Monte Carlo simülasyonu yöntemi de var gibi görünüyor. Degrade inişin ne zaman ve Monte Carlo'nun ne zaman kullanılacağını nasıl söyleyebilirim? Yoksa 'simülasyon' terimini 'optimizasyon' ile karıştırıyor muyum? Çok teşekkür ederim!

1
Bir P (Y | X) modeli, P (X) 'nin iid olmayan örneklerinden ve P (Y | X)' nin iid örneklerinden stokastik eğim alçalması ile eğitilebilir mi?
Bazı veri setlerinde stokastik eğim alçalması ile parametreli bir model (örn. Olasılığı en üst düzeye çıkarmak için) eğitilirken, eğitim örneklerinin eğitim veri dağıtımından alındığı yaygın olarak kabul edilir. Dolayısıyla, bir ortak dağıtım modellemekse , her bir eğitim örneği bu dağıtımdan çıkarılmalıdır.( x i , y i )P(X,Y)P(X,Y)P(X,Y)(xi,yi)(xi,yi)(x_i,y_i) Amaç bunun yerine …

4
Gradyan iniş optimizasyonu
ML (makine öğrenimi) algoritmalarında gradyan iniş optimizasyonunu anlamaya çalışıyorum. Bir maliyet fonksiyonu olduğunu anlıyorum - amacın hatayı en aza indirmektir . Ağırlıkları senaryoda en az hata vermek için optimize edilmektedir ve kısmi türevleri kullanılmaktadır, her iki değiştirir ve az sayıda iterasyon içinde, her bir aşamada ya da bir kombinasyonu (örneğin, …

2
Degrade inişte sabit adım boyutunu kullanırken adımlarım neden küçülüyor?
Degrade düzgün bir oyuncak örneği yaptığımızı varsayalım , sabit adım boyutu kullanarak ikinci dereceden işlevini en aza . ( )xTAxxTAxx^TAxα = 0.03α=0.03\alpha=0.03A=[10,2;2,3]A=[10,2;2,3]A=[10, 2; 2, 3] Her bir yinelemede izini çizersek, aşağıdaki rakamı elde ederiz. Sabit adım boyutu kullandığımızda neden noktalar "daha yoğun" oluyor ? Sezgisel olarak, sabit bir adım boyutuna …


1
Degrade, degrade iniş gibi nasıl yükselir?
Degrade artırımı ( https://en.wikipedia.org/wiki/Gradient_boosting ) ile ilgili faydalı Wikipedia girişini okuyorum ve kalıntıları en dik iniş adımı ile (/ sözde degrade olarak da adlandırılır) nasıl / neden yaklaşık olarak anlayabileceğimizi anlamaya çalışıyorum ). Biri bana en dik inişin artıklara nasıl bağlı / benzer olduğuna dair sezgileri verebilir mi? Çok takdir …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.