«gradient-descent» etiketlenmiş sorular

Gradyan İniş, bir fonksiyonun minimumunu bulmak için bir algoritmadır. Fonksiyonun kısmi türevlerini (gradyanlarını) yinelemeli olarak hesaplar ve bu kısmi türevlerle orantılı adımlarla alçalır. Gradient Descent'in önemli bir uygulaması, parametreleştirilmiş bir modeli bir veri setine uydurmaktır: minimize edilecek fonksiyon, model için bir hata fonksiyonudur.

4
Scikit-learn: Lojistik Regresyonun yanı sıra tahmin etmek için SGDClassifier'ı edinmek
Lojistik Regresyon'u eğitmenin bir yolu, scikit-learn'ın bir arayüz sunduğu stokastik degrade inişini kullanmaktır. Yapmak istediğim bir scikit- learn'ın SGDClassifier'ı almak ve burada Lojistik Regresyon ile aynı puanı almak . Ancak puanlarım eşit olmadığından bazı makine öğrenme geliştirmelerini kaçırmam gerekiyor. Bu benim şu anki kodum. Lojistik Regresyon ile aynı sonuçları vermesini …


4
Gradyan inişi her zaman optimum seviyeye yaklaşıyor mu?
Degrade inişin minimuma yakınlaşmadığı bir senaryo olup olmadığını merak ediyorum. Degrade inişin her zaman küresel bir optimumluğa yaklaşacağı garanti edilmez. Ayrıca, adım boyutu çok büyükse, optimumdan farklı olabileceğinin de farkındayım. Ancak, bana öyle geliyor ki, eğer bir optimumdan ayrılırsa, sonunda başka bir optimum seviyeye gidecektir. Bu nedenle, gradyan inişinin yerel …

1
ReLU neden diğer aktivasyon fonksiyonlarından daha iyidir?
Burada cevap, benzer sigmoidaktivasyon fonksiyonları olan ama sanırım Relubir dezavantaja sahip olan ve beklenen değeri olan yok olan ve patlayan gradyanları ifade eder . çıkışı için bir sınırlama yoktur Reluve bu nedenle beklenen değeri sıfır değildir. Popülerlik önce hatırlıyorum Reluo tanhmakine ziyade uzmanlar öğrenme arasında en popüler oldu sigmoid. Bunun …


1
Kaç LSTM hücresi kullanmalıyım?
Kullanmam gereken minimum, maksimum ve "makul" miktarda LSTM hücresi ile ilgili herhangi bir temel kural (veya gerçek kurallar) var mı? Özellikle ben ilişkin am BasicLSTMCell TensorFlow ve gelen num_unitsmülk. Lütfen şu şekilde tanımlanan bir sınıflandırma sorunum olduğunu varsayalım: t - number of time steps n - length of input vector …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

4
İşlev düzgünse neden eğim alçalmayı hızlandırır?
Şimdi "Scikit-Learn ve TensorFlow ile Uygulamalı Makine Öğrenimi" başlıklı bir kitap okudum ve bölüm 11'de ELU'nun (Üstel ReLU) açıklaması ile ilgili aşağıdaki açıklama var. Üçüncüsü, fonksiyon z = 0 dahil olmak üzere her yerde pürüzsüzdür, bu da z = 0'ın soluna ve sağına sıçramayacağı için Gradient Descent'i hızlandırmaya yardımcı olur. …

1
Nesnel işlev ile çıktı katmanı etkinleştirme işlevi arasındaki bağlantı ne kadar esnektir?
Çıktı katmanındaki aktivasyon fonksiyonu ile en aza indirilecek objektif fonksiyonu eşleştirmek birçok sinir ağı paketinde standart görünmektedir. Örneğin, regresyon için kullanılan doğrusal bir çıktı katmanı için, kare şeklinde bir hata objektif fonksiyonuna sahip olmak standarttır (ve genellikle sadece seçimdir). Bir diğer olağan eşleşme, lojistik çıktı ve log kaybı (veya çapraz …

2
Vektör işlemlerine dayalı stokastik degrade iniş?
Diyelim ki N örneği olan bir veri kümesi kullanarak stokastik bir degrade iniş regresyon algoritması eğitmek istiyorum. Veri kümesinin boyutu sabit olduğundan, veri T zamanlarını yeniden kullanacağım. Her yinelemede veya "dönem" de, tüm eğitim setini rastgele yeniden sıraladıktan sonra her eğitim örneğini tam olarak bir kez kullanıyorum. Benim uygulama Python …

2
Öğrenme hızı neden sinir ağımın ağırlıklarının hızla artmasına neden oluyor?
Tensorflow'u biraz araştırma için basit sinir ağları yazmak için kullanıyorum ve antrenman yaparken 'nan' ağırlıkları ile ilgili birçok sorun yaşadım. Optimize ediciyi değiştirme, kaybı, veri boyutunu vb. Değiştirme gibi birçok farklı çözüm denedim, ancak boşuna. Son olarak, öğrenme oranındaki bir değişikliğin ağırlıklarımda inanılmaz bir fark yarattığını fark ettim. .001 (oldukça …
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.