«cross-validation» etiketlenmiş sorular

Gizli veri alt kümelerindeki model performansını ölçmek için, model uydurma sırasında verilerin alt kümelerini sürekli olarak saklamak.

1
Hiperparametreleri ayarlarken doğrulama verileri üzerindeki model performansını değerlendirirsem doğrulama verileriyle ilgili bilgiler neden sızdırılıyor?
François Chollet'in Python ile Derin Öğrenmesi'nde şöyle diyor: Sonuç olarak, modelin yapılandırmasını doğrulama setindeki performansına göre ayarlamak, modeliniz hiçbir zaman doğrudan doğrudan eğitilmemiş olsa bile, doğrulama setine aşırı takılmasına neden olabilir. Bu fenomenin merkezinde bilgi sızıntısı kavramı vardır. Modelinizin doğrulama parametresindeki performansına göre bir hiperparametreyi her ayarladığınızda, doğrulama verileri hakkında …

2
Bayeslilerin test setlerine ihtiyaç duymadığı doğru mu?
Kısa bir süre önce Eric J. Ma tarafından bu konuşmayı izledim ve Radford Neal'dan alıntı yaptığı blog girişini kontrol ettim, Bayesian modellerin abartılamadığını (ancak overfit edebileceklerini ) ve bunları kullanırken, onları doğrulamak için test setlerine ihtiyacımız yok ( Bana tırnak işaretleri yerine parametreleri ayarlamak için doğrulama kümesi kullanarak konuşmak gibi …

1
Hangi derin öğrenme modeli, birbirini dışlamayan kategorileri sınıflandırabilir
Örnekler: İş tanımında bir cümle var: "İngiltere'de Java kıdemli mühendisi". Derin bir öğrenme modelini 2 kategori olarak tahmin etmek istiyorum: English ve IT jobs. Geleneksel sınıflandırma modeli kullanırsam, sadece softmaxson katmanda işlevli 1 etiket tahmin edebilir . Bu nedenle, her iki kategoride "Evet" / "Hayır" ı tahmin etmek için 2 …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

2
Çapraz doğrulamadan önce denetimsiz özellik seçimi yapmak gerçekten iyi mi?
In İstatistiksel Öğrenme Elements , ben aşağıdaki ifadeyi buldum: Bir nitelik vardır: ilk denetimsiz tarama adımları numuneler dışarıda bırakılmadan önce yapılabilir. Örneğin, çapraz validasyona başlamadan önce 50 numunenin hepsinde en yüksek varyansa sahip 1000 öngörücüyü seçebiliriz. Bu filtreleme sınıf etiketlerini içermediğinden, öngörücülere haksız bir avantaj sağlamaz. Bu gerçekten geçerli mi? …

2
Her zaman CV yapmalı mıyız?
Sorum: Nispeten büyük bir veri kümesi için bile CV yapmalı mıyım? Nispeten büyük bir veri setim var ve veri setine bir makine öğrenme algoritması uygulayacağım. Bilgisayarım hızlı olmadığından, CV (ve şebeke araması) bazen çok uzun zaman alıyor. Özellikle SVM, birçok ayar parametresi nedeniyle asla bitmez. Eğer bir CV yaparsam, nispeten …

1
Cebirsel sınıflandırıcılar, daha fazla bilgi?
Cebirsel sınıflandırıcıları okudum : hızlı çapraz doğrulama, çevrimiçi eğitim ve paralel eğitim için genel bir yaklaşım ve türetilmiş algoritmaların performansına hayran kaldım . Bununla birlikte, Naive Bayes'in (ve GBM'lerin) ötesinde, çerçeveye uyarlanmış çok fazla algoritma olmadığı görülmektedir. Farklı sınıflandırıcılar üzerinde çalışan başka makaleler var mı? (SVM'ler, Rastgele Ormanlar)

1
K-katlamalı CV ile orijinal (?) Model seçimi
Regresyon modelleri arasında seçim yapmak için k-katlamalı CV kullanırken, genellikle standart hatası SE ile birlikte her model için CV hatasını ayrı ayrı hesaplıyorum ve en düşük CV hatasına sahip modelin 1 SE'sinde en basit modeli seçiyorum (1 standart hata kuralı için buraya bakınız ). Ancak, son zamanlarda bana bu şekilde …

2
Artırma için çantadan çıkma hatası tahmini?
Rastgele Orman'da her ağaç, verilerin benzersiz bir takviye örneğine paralel olarak büyütülür. Her takviye örneğinin benzersiz gözlemlerin yaklaşık% 63'ünü içermesi beklendiğinden, bu, ağacın test edilmesi için kullanılabilecek gözlemlerin yaklaşık% 37'sini dışarıda bırakır. Şimdi, Stokastik Degrade benzer bir tahmini var gibi görünüyor :OOBerrorOOBerrorOOB_{error} Bag.fraction 0 değerinden daha büyük olarak ayarlanırsa (0,5 …

2
Model oluşturma süreci etkileşimli olduğunda geri test veya çapraz doğrulama
Performansını geri test etmek istediğim bazı öngörülü modellerim var (yani, veri setimi al, önceki bir noktaya "geri sar" ve modelin prospektif olarak nasıl performans göstereceğini görüyorum). Sorun şu ki, bazı modellerim etkileşimli bir süreçle oluşturuldu. Örneğin, Frank Harrell'in Regresyon Modelleme Stratejilerindeki tavsiyeyi takiben, bir modelde, özellikler ve yanıt arasındaki olası …

3
R kullanarak sırt regresyonu için K katlama veya tutma çapraz doğrulaması
Verilerimin tahmininin 200 denek ve 1000 değişken ile çapraz doğrulanması üzerinde çalışıyorum. Değişken sayısı (kullanmak istiyorum) örnek sayısından daha büyük olduğu için ridge regresyonuyla ilgileniyorum. Bu yüzden büzülme tahmin edicileri kullanmak istiyorum. Aşağıdaki örnek veriler oluşur: #random population of 200 subjects with 1000 variables M <- matrix(rep(0,200*100),200,1000) for (i in …

2
Ağaçların güçlendirilmesinde ayar parametreleri için en uygun değerler nasıl bulunur?
Artırıcı ağaçlar modelinde 3 ayar parametresi olduğunu, yani ağaç sayısı (yineleme sayısı) büzülme parametresi bölünme sayısı (her bir kurucu ağacın büyüklüğü) Benim sorum: ayarlama parametrelerinin her biri için, optimal değerini nasıl bulabilirim? Hangi yöntem? Şunu unutmayın: büzülme parametresi ve ağaç sayısı parametresi birlikte çalışır, yani büzülme parametresi için daha küçük …

1
R / düzeltme: tren ve test setleri ile çapraz validasyon mu?
Bu belki de aptalca bir soru olabilir, ancak caret ile bir model oluştururken LOOCVveya veya (hatta daha da fazlası) gibi bir şey kullanırken LGOCV, aslında çapraz doğrulama adımının bu olması durumunda verileri tren ve test setlerine bölmenin yararı nedir? neyse? İlgili soruların bazılarını okudum ve çapraz onaylama yöntemlerinden bazılarının (örneğin …

1
Gözlenen ve beklenen olayları nasıl karşılaştırırım?
Diyelim ki 4 olası olayın sıklık örneğine sahibim: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 ve olaylarımın gerçekleşmesi için beklenen olasılıklarım var: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Dört olayın gözlemlenen frekanslarının toplamı ile (18) Olayların beklenen frekanslarını hesaplayabilir …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 


2
Karışık modeller için Çapraz Doğrulama?
Meslektaşım ve ben bir dizi doğrusal ve doğrusal olmayan karışık efekt modeli takıyoruz. Gözlenen etkilerin nispeten genelleştirilebilir olduğunu doğrulayabilmemiz için, takılan modeller üzerinde çapraz doğrulama yapmamız isteniyor. Bu normalde önemsiz bir görevdir, ancak bizim durumumuzda, tüm verileri bir eğitim bölümüne ve ortak seviyeleri paylaşmayan bir test bölümüne (CV amaçları için) …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.