«hyperparameter» etiketlenmiş sorular

Tam olarak istatistiksel model (veya veri oluşturma işlemi) için değil, istatistiksel yöntem için bir parametre. Bu, aşağıdakiler için bir parametre olabilir: önceden dağıtılmış bir aile, yumuşatma, düzenleme yöntemlerinde bir ceza veya bir optimizasyon algoritması.

1
Gauss Proses Regresyonunda Hiperparametre Ayarı
log(y|X,θ)=−12yTK−1yy−12log(det(K))−n2log(2π)log⁡(y|X,θ)=−12yTKy−1y−12log⁡(det(K))−n2log⁡(2π)\log(\mathbf{y}|X,\mathbf{\theta})=-\frac{1}{2} \mathbf{y}^TK_y^{-1}\mathbf{y}-\frac{1}{2}\log(\det(K))-\frac{n}{2}\log(2\pi)KKKKij=k(xi,xj)=b−1exp(−12(xi−xj)TM(xi−xj))+a−1δijKij=k(xi,xj)=b−1exp⁡(−12(xi−xj)TM(xi−xj))+a−1δijK_{ij}=k(x_i,x_j)=b^{-1}\exp(-\frac{1}{2}(x_i-x_j)^TM(x_i-x_j))+a^{-1}\delta_{ij}M=lIM=lIM=lIa,ba,ba,blll log marjinal olabilirlik wrt parametrelerinin kısmi türevi aşağıdakilog(y|X,θ)dθ=12trace(K−1dKdθ)+12(ydKdθK−1dKdθy)log⁡(y|X,θ)dθ=12trace(K−1dKdθ)+12(ydKdθK−1dKdθy)\frac{\log(\mathbf{y}|X,\mathbf{\theta})}{d\theta}=\frac{1}{2}\mathrm{trace}(K^{-1}\frac{dK}{d\theta})+\frac{1}{2}(\mathbf{y}\frac{dK}{d\theta}K^{-1}\frac{dK}{d\theta}\mathbf{y}) girişleri parametrelere bağlı olduğundan, türevler ve tersi de geçerlidir . Bu, gradyan tabanlı bir optimize edici kullanıldığında, gradyanın belirli bir noktada (parametre değeri) değerlendirilmesi, kovaryans matrisinin yeniden hesaplanmasını gerektireceği anlamına gelir. Benim uygulamada, bu mümkün değildir çünkü kovaryans matrisini sıfırdan …

1
Stokastik degrade iniş (SGD) için uygun bir minibatch boyutu seçme
Stokastik degrade iniş yaparken minibatch boyutu seçimini inceleyen literatür var mı? Deneyimlerime göre, genellikle çapraz doğrulama veya değişen başparmak kuralları kullanılarak bulunan ampirik bir seçim gibi görünüyor. Doğrulama hatası azaldıkça minibatch boyutunu yavaşça arttırmak iyi bir fikir mi? Bunun genelleme hatası üzerinde ne gibi etkileri olur? Son derece küçük bir …

1
Hiyerarşik Gamma-Poisson modeli için aşırı yoğunluk
Verileri bir hiyerarşik model içerisinde burada \ lambda \ sim \ textrm {Gama} (\ a \ P) uygulamada tipik olarak görünmektedir değerlerine (seçilmek için \ alfa, \ beta) gama dağılımının ortalaması ve varyansı kabaca y verilerinin ortalaması ve varyansı ile kabaca eşleşecektir (örneğin, Clayton ve Kaldor, 1987 "Hastalık Haritalaması için …



2
İç içe çapraz doğrulama - eğitim setindeki kfold CV ile model seçiminden farkı nedir?
Sıklıkla 5x2 çapraz doğrulamadan bahseden insanların iç içe çapraz doğrulamanın özel bir örneği olduğunu görüyorum . İlk sayının (burada: 5) iç döngüdeki kat sayısını ve ikinci sayı (burada: 2) dış döngüdeki kat sayısını ifade ettiğini varsayıyorum? Peki, bunun "geleneksel" model seçim ve değerlendirme yaklaşımından farkı nedir? "Geleneksel" derken veri kümesini …

1
Doğrusal regresyonda, regülasyon neden parametre değerlerini de cezalandırıyor?
Şu anda sırt regresyonunu öğreniyorum ve daha karmaşık modellerin (veya daha karmaşık bir modelin tanımının) cezalandırılması konusunda biraz kafam karıştı. Anladığım kadarıyla, model karmaşıklığı mutlaka polinom düzeni ile ilişkili değildir. Yani:2 + 3 + 4x2+ 5x3+ 6x42+3+4x2+5x3+6x4 2 + 3+ 4x^2 + 5x^3 + 6x^4 aşağıdakilerden daha karmaşık bir modeldir: …

1
Hiperparametreleri ayarlarken doğrulama verileri üzerindeki model performansını değerlendirirsem doğrulama verileriyle ilgili bilgiler neden sızdırılıyor?
François Chollet'in Python ile Derin Öğrenmesi'nde şöyle diyor: Sonuç olarak, modelin yapılandırmasını doğrulama setindeki performansına göre ayarlamak, modeliniz hiçbir zaman doğrudan doğrudan eğitilmemiş olsa bile, doğrulama setine aşırı takılmasına neden olabilir. Bu fenomenin merkezinde bilgi sızıntısı kavramı vardır. Modelinizin doğrulama parametresindeki performansına göre bir hiperparametreyi her ayarladığınızda, doğrulama verileri hakkında …
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.