İstatistikler ve Büyük Veri hyperparameter

1

Gauss Proses Regresyonunda Hiperparametre Ayarı

log(y|X,θ)=−12yTK−1yy−12log(det(K))−n2log(2π)log⁡(y|X,θ)=−12yTKy−1y−12log⁡(det(K))−n2log⁡(2π)\log(\mathbf{y}|X,\mathbf{\theta})=-\frac{1}{2} \mathbf{y}^TK_y^{-1}\mathbf{y}-\frac{1}{2}\log(\det(K))-\frac{n}{2}\log(2\pi)KKKKij=k(xi,xj)=b−1exp(−12(xi−xj)TM(xi−xj))+a−1δijKij=k(xi,xj)=b−1exp⁡(−12(xi−xj)TM(xi−xj))+a−1δijK_{ij}=k(x_i,x_j)=b^{-1}\exp(-\frac{1}{2}(x_i-x_j)^TM(x_i-x_j))+a^{-1}\delta_{ij}M=lIM=lIM=lIa,ba,ba,blll log marjinal olabilirlik wrt parametrelerinin kısmi türevi aşağıdakilog(y|X,θ)dθ=12trace(K−1dKdθ)+12(ydKdθK−1dKdθy)log⁡(y|X,θ)dθ=12trace(K−1dKdθ)+12(ydKdθK−1dKdθy)\frac{\log(\mathbf{y}|X,\mathbf{\theta})}{d\theta}=\frac{1}{2}\mathrm{trace}(K^{-1}\frac{dK}{d\theta})+\frac{1}{2}(\mathbf{y}\frac{dK}{d\theta}K^{-1}\frac{dK}{d\theta}\mathbf{y}) girişleri parametrelere bağlı olduğundan, türevler ve tersi de geçerlidir . Bu, gradyan tabanlı bir optimize edici kullanıldığında, gradyanın belirli bir noktada (parametre değeri) değerlendirilmesi, kovaryans matrisinin yeniden hesaplanmasını gerektireceği anlamına gelir. Benim uygulamada, bu mümkün değildir çünkü kovaryans matrisini sıfırdan …

13 regression optimization gaussian-process hyperparameter

1

Stokastik degrade iniş (SGD) için uygun bir minibatch boyutu seçme

Stokastik degrade iniş yaparken minibatch boyutu seçimini inceleyen literatür var mı? Deneyimlerime göre, genellikle çapraz doğrulama veya değişen başparmak kuralları kullanılarak bulunan ampirik bir seçim gibi görünüyor. Doğrulama hatası azaldıkça minibatch boyutunu yavaşça arttırmak iyi bir fikir mi? Bunun genelleme hatası üzerinde ne gibi etkileri olur? Son derece küçük bir …

13 machine-learning gradient-descent hyperparameter deep-learning

1

Hiyerarşik Gamma-Poisson modeli için aşırı yoğunluk

Verileri bir hiyerarşik model içerisinde burada \ lambda \ sim \ textrm {Gama} (\ a \ P) uygulamada tipik olarak görünmektedir değerlerine (seçilmek için \ alfa, \ beta) gama dağılımının ortalaması ve varyansı kabaca y verilerinin ortalaması ve varyansı ile kabaca eşleşecektir (örneğin, Clayton ve Kaldor, 1987 "Hastalık Haritalaması için …

11 poisson-distribution gamma-distribution hierarchical-bayesian hyperparameter

4

Neden sadece hiper parametreleri öğrenmiyoruz?

Oldukça popüler bir " ADVERSARIAL ÖRNEKLERİ AÇMAK VE SÜRDÜRMEK " makalesini uyguluyordum ve makalede, olumsuz bir objektif işlevi eğitiyor J '' (θ) = αJ (θ) + (1 - α) J '(θ). Α'ya hiperparametre gibi davranır. a, 0,1, 0,2, 0,3 vb. olabilir. Bu özel kağıttan bağımsız olarak, merak ediyorum, neden parametrelerimize …

11 machine-learning neural-networks deep-learning hyperparameter

1

Öğrenme hızı ve gizli katman sayısı arasındaki ilişki?

Sinir ağının derinliği ile öğrenme hızı arasında temel bir kural var mı? Ağ ne kadar derin olursa, öğrenme oranının o kadar düşük olması gerektiğini fark ettim. Bu doğruysa, neden böyle?

10 neural-networks deep-learning hyperparameter rule-of-thumb

2

İç içe çapraz doğrulama - eğitim setindeki kfold CV ile model seçiminden farkı nedir?

Sıklıkla 5x2 çapraz doğrulamadan bahseden insanların iç içe çapraz doğrulamanın özel bir örneği olduğunu görüyorum . İlk sayının (burada: 5) iç döngüdeki kat sayısını ve ikinci sayı (burada: 2) dış döngüdeki kat sayısını ifade ettiğini varsayıyorum? Peki, bunun "geleneksel" model seçim ve değerlendirme yaklaşımından farkı nedir? "Geleneksel" derken veri kümesini …

10 machine-learning cross-validation hyperparameter

1

Doğrusal regresyonda, regülasyon neden parametre değerlerini de cezalandırıyor?

Şu anda sırt regresyonunu öğreniyorum ve daha karmaşık modellerin (veya daha karmaşık bir modelin tanımının) cezalandırılması konusunda biraz kafam karıştı. Anladığım kadarıyla, model karmaşıklığı mutlaka polinom düzeni ile ilişkili değildir. Yani:2 + 3 + 4x2+ 5x3+ 6x42+3+4x2+5x3+6x4 2 + 3+ 4x^2 + 5x^3 + 6x^4 aşağıdakilerden daha karmaşık bir modeldir: …

9 regression regularization hyperparameter

1

Hiperparametreleri ayarlarken doğrulama verileri üzerindeki model performansını değerlendirirsem doğrulama verileriyle ilgili bilgiler neden sızdırılıyor?

François Chollet'in Python ile Derin Öğrenmesi'nde şöyle diyor: Sonuç olarak, modelin yapılandırmasını doğrulama setindeki performansına göre ayarlamak, modeliniz hiçbir zaman doğrudan doğrudan eğitilmemiş olsa bile, doğrulama setine aşırı takılmasına neden olabilir. Bu fenomenin merkezinde bilgi sızıntısı kavramı vardır. Modelinizin doğrulama parametresindeki performansına göre bir hiperparametreyi her ayarladığınızda, doğrulama verileri hakkında …

9 neural-networks cross-validation hyperparameter

«hyperparameter» etiketlenmiş sorular