«loss-functions» etiketlenmiş sorular

Bir modele göre, gözlemlenen veriler ile öngörülen değerler arasındaki farkı ölçmek için kullanılan bir işlev. Kayıp fonksiyonlarının en aza indirilmesi, modelin parametrelerini tahmin etmenin bir yoludur.

5
Yapay sinir ağlarında çoklu sınıf, çoklu etiket sınıflandırma görevleri için hangi kayıp fonksiyonu?
Bir dizi nesneyi n sınıflarına ayırmak için sinir ağını eğitiyorum. Her nesne aynı anda birden fazla sınıfa ait olabilir (çoklu sınıf, çoklu etiket). Çok sınıflı problemlerde genellikle mse yerine kayıp fonksiyonu olarak softmax ve kategorik çapraz entropinin kullanılması önerildiğini ve nedenini az çok anladığımı okudum. Çoklu etiket problemim için, her …

3
Makine Öğrenimi: İkili tahminler için kategorik bir çapraz entropi veya ikili çapraz entropi kaybı kullanmalı mıyım?
Öncelikle, ikili tahminler yapmam gerekirse, tek bir sıcak kodlama gerçekleştirerek en az iki sınıf oluşturmam gerektiğini fark ettim. Bu doğru mu? Ancak, ikili çapraz entropi sadece bir sınıf içeren tahminler için mi? Genelde çoğu kütüphanede (TensorFlow gibi) bulunan kategorik bir çapraz entropi kaybı kullansaydım, önemli bir fark olur mu? Aslında, …

5
Sinir ağının maliyet fonksiyonu dışbükey mi?
Maliyet fonksiyonu sinir ağı ait ve olduğu iddia edilen dışbükey . Neden böyle olduğunu anlamıyorum, çünkü lojistik regresyonun maliyet fonksiyonuna oldukça benzer olduğunu görüyorum, değil mi?J( W, B )J(W,b)J(W,b) Dışbükey değilse, 2. derece türevi , değil mi?∂J∂W&lt; 0∂J∂W&lt;0\frac{\partial J}{\partial W} < 0 GÜNCELLEŞTİRME Aşağıda verilen cevaplar ve @ gung'un yorumuna …

2
OLS doğrusal regresyonunda maliyet fonksiyonu
Andrew Ng tarafından Coursera'da makine öğrenmesi hakkında verilen lineer regresyon dersiyle biraz kafam karıştı. Orada, karelerin toplamını en aza indiren bir maliyet işlevi verdi: 12m∑i=1m(hθ(X(i))−Y(i))212m∑i=1m(hθ(X(i))−Y(i))2 \frac{1}{2m} \sum _{i=1}^m \left(h_\theta(X^{(i)})-Y^{(i)}\right)^2 nereden geldiğini anlıyorum . Bence öyle yaptı ki, kare teriminde türev gerçekleştirdiğinde, kare terimdeki 2, yarı ile iptal edecektir. Ama nereden …


4
Lojistik regresyon için hangi kayıp fonksiyonu doğrudur?
Lojistik regresyon için kayıp fonksiyonunun iki versiyonunu okudum, hangisi doğru ve neden? Kaynaktan Machine Learning , Zhou ZH (Çince) ile β=(w,b) and βTx=wTx+bβ=(w,b) and βTx=wTx+b\beta = (w, b)\text{ and }\beta^Tx=w^Tx +b : l(β)=∑i=1m(−yiβTxi+ln(1+eβTxi))(1)(1)l(β)=∑i=1m(−yiβTxi+ln⁡(1+eβTxi))l(\beta) = \sum\limits_{i=1}^{m}\Big(-y_i\beta^Tx_i+\ln(1+e^{\beta^Tx_i})\Big) \tag 1 Üniversite tabii kaynaktan ile zi=yif(xi)=yi(wTxi+b)zi=yif(xi)=yi(wTxi+b)z_i = y_if(x_i)=y_i(w^Tx_i + b) : L(zi)=log(1+e−zi)(2)(2)L(zi)=log⁡(1+e−zi)L(z_i)=\log(1+e^{-z_i}) \tag 2 …

5
Makine öğrenmesinde hiyerarşik / iç içe geçmiş verilerle nasıl baş edilir
Sorunumu bir örnekle açıklayacağım. Bazı nitelikler verilen bir bireyin gelirini tahmin etmek istediğinizi varsayalım: {Yaş, Cinsiyet, Ülke, Bölge, Şehir}. Bunun gibi bir eğitim veri setine sahipsiniz train &lt;- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
Taylor Expansion ile XGBoost Kaybı Fonksiyonu Yaklaşımı
Bir örnek olarak, ilgili XGBoost modelin amacı, fonksiyonu, ttt 'inci yineleme: L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) burada ℓℓ\ell kaybı fonksiyonudur, ftftf_t olan ttt 'inci ağaç çıkışı ve ΩΩ\Omega regülarizasyonu olup. Hızlı hesaplama için (birçok) ana adımdan biri yaklaşık değerlerdir: L(t)≈∑i=1nℓ(yi,y^(t−1)i)+gtft(xi)+12hif2t(xi)+Ω(ft),L(t)≈∑i=1nℓ(yi,y^i(t−1))+gtft(xi)+12hift2(xi)+Ω(ft),\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t), burada gigig_i ve hihih_i işlev kaybı, birinci ve ikinci türevleridir. İstediğim şey, yukarıdaki …

3
Sınıflandırmada farklı kayıp fonksiyonlarını seçmenin etkileri yaklaşık 0-1 kayıptır.
Bazı objektif fonksiyonların optimize edilmesinin daha kolay, bazılarının ise zor olduğunu biliyoruz. Ve kullanmak istediğimiz ancak kullanması zor olan birçok kayıp fonksiyonu var, örneğin 0-1 kayıp. Yani işi yapmak için bazı proxy kaybı işlevlerini buluyoruz . Örneğin, 0-1 kaybını "yaklaşık" yapmak için menteşe kaybı veya lojistik kaybı kullanıyoruz. Ardından arsa …

2
Zar katsayısı kayıp fonksiyonu - çapraz entropi
Tamamen evrişimli ağlar gibi bir piksel segmentasyonu sinir ağlarını eğitirken, Zar katsayısı kaybı fonksiyonuna karşı çapraz entropi kaybı fonksiyonunu kullanma kararını nasıl verirsiniz? Bunun kısa bir soru olduğunun farkındayım, ancak başka hangi bilgileri sağlayacağından emin değilim. İki kayıp işlevi hakkında bir sürü belgeye baktım ancak birini ne zaman kullanacağımı sezgisel …

1
Eğitim kaybı azalır ve tekrar yükselir. Ne oluyor?
Eğitim kaybım azaldı ve sonra tekrar yükseldi. Bu çok garip. Çapraz doğrulama kaybı, eğitim kaybını izler. Ne oluyor? Aşağıdaki gibi iki yığılmış LSTMS var (Keras'larda): model = Sequential() model.add(LSTM(512, return_sequences=True, input_shape=(len(X[0]), len(nd.char_indices)))) model.add(Dropout(0.2)) model.add(LSTM(512, return_sequences=False)) model.add(Dropout(0.2)) model.add(Dense(len(nd.categories))) model.add(Activation('sigmoid')) model.compile(loss='binary_crossentropy', optimizer='adadelta') 100 dönem için eğitiyorum: model.fit(X_train, np.array(y_train), batch_size=1024, nb_epoch=100, validation_split=0.2) 127803 …

3
Menteşe kaybının gradyanı
Temel degrade inişini uygulamaya çalışıyorum ve bunu bir menteşe kaybı fonksiyonu ile test ediyorum, yani lhinge=max(0,1−y x⋅w)lhinge=max(0,1−y x⋅w)l_{\text{hinge}} = \max(0,1-y\ \boldsymbol{x}\cdot\boldsymbol{w}) . Ancak, menteşe kaybının derecesi hakkında kafam karıştı. Olduğu izlenimi altındayım ∂∂wlhinge={−y x0if y x⋅w&lt;1if y x⋅w≥1∂∂wlhinge={−y xif y x⋅w&lt;10if y x⋅w≥1 \frac{\partial }{\partial w}l_{\text{hinge}} = \begin{cases} -y\ \boldsymbol{x} …

2
Kuantil regresyon: Kayıp fonksiyonu
Kuantil regresyonu anlamaya çalışıyorum, fakat beni acı çeken bir şey, kayıp fonksiyonunun seçimi. ρτ(u)=u(τ−1{u&lt;0})ρτ(u)=u(τ−1{u&lt;0})\rho_\tau(u) = u(\tau-1_{\{u<0\}}) beklentisinin -quantile değerine eşit olduğunu biliyorum, ancak bu işlevle başlamak için sezgisel neden nedir? Bu işlevi minimize etmek ile nicelik arasındaki ilişkiyi görmüyorum. Biri bana açıklayabilir mi?ρτ(y−u)ρτ(y−u)\rho_\tau(y-u)τ%τ%\tau\%

2
Regresyon için asimetrik kayıp fonksiyonu nasıl tasarlanır ve uygulanır?
Sorun Regresyonda, genellikle bir örnek için ortalama kare hatası (MSE) hesaplanır : , bir prediktör kalitesini ölçmek için uygulanır.MSE=1n∑i=1n(g(xi)−gˆ(xi))2MSE=1n∑i=1n(g(xi)−g^(xi))2 \text{MSE} = \frac{1}{n} \sum_{i=1}^n\left(g(x_i) - \widehat{g}(x_i)\right)^2 Şu anda, hedefin, müşterilerin birtakım sayısal özellikler verilen bir ürün için ödemek istedikleri fiyatı tahmin etmektir. Öngörülen fiyat çok yüksekse, hiçbir müşteri ürünü satın alamaz, …


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.