«cross-validation» etiketlenmiş sorular

Gizli veri alt kümelerindeki model performansını ölçmek için, model uydurma sırasında verilerin alt kümelerini sürekli olarak saklamak.

5
CV / Bootstrap kullanarak makine öğrenim algoritmalarını çalıştırabilir misiniz?
Bu soru kesin bir cevap alamayacak kadar açık uçlu olabilir, ama umarım değil. SVM, GBM, Rastgele Orman vb. Gibi makine öğrenmesi algoritmaları, genellikle bazı rehberlik kurallarının ötesinde, her bir veri setine ayarlanması gereken bazı ücretsiz parametrelere sahiptir. Bu genellikle, en iyi genelleme hatasını veren parametre setine uyması için bir çeşit …


1
Çapraz doğrulama yanlış kullanımı (en iyi hiperparametre değeri için raporlama performansı)
Son zamanlarda , belirli bir veri setinde bir k-NN sınıflandırıcısının kullanılmasını öneren bir makale ile karşılaştım . Yazarlar, farklı k değerleri için k-kat çapraz doğrulama yapmak ve mevcut en iyi hiperparametre konfigürasyonunun çapraz doğrulama sonuçlarını bildirmek için mevcut tüm veri örneklerini kullandı . Bildiğim kadarıyla, bu sonuç önyargılı ve hiperparametre …

1
Poisson modellerinin çapraz doğrulanması için hata ölçümleri
Sayımı tahmin etmeye çalışan bir modeli çapraz onaylıyorum. Bu ikili bir sınıflandırma problemi olsaydı, katlanma dışı AUC'yi hesaplardım ve bu bir regresyon sorunu olsaydı, katlanma dışı RMSE ya da MAE'yi hesaplardım. Poisson modelinde, örnek dışı tahminlerin "doğruluğunu" değerlendirmek için hangi hata ölçümlerini kullanabilirim? Tahminlerin gerçek değerleri ne kadar iyi sipariş …

3
K-fold ve Monte Carlo çapraz doğrulama
Öncelikle denetlenen çok değişkenli analiz tekniklerine başvurmak amacıyla çeşitli çapraz doğrulama yöntemlerini öğrenmeye çalışıyorum. Karşılaştığım iki K-kat ve Monte Carlo çapraz doğrulama teknikleri. K-fold'ın Monte Carlo'daki bir varyasyon olduğunu okudum ama Monte Carlo'nun tanımını neyin yaptığını tam olarak anladığımdan emin değilim. Birisi lütfen bu iki yöntem arasındaki farkı açıklayabilir mi?

2
Neden tabakalı çapraz doğrulama kullanılır? Bu neden varyansa bağlı faydaya zarar vermez?
Bana, özellikle cevap sınıfları dengesiz olduğunda, tabakalı çapraz doğrulama kullanmanın faydalı olduğu söylendi. Çapraz onaylamanın bir amacı, orijinal eğitim verisi örneğimizin rastgelelik durumunun hesaba katılmasına yardımcı olmaksa, her bir katlamanın kesinlikle aynı sınıf dağılımına sahip olmasını sağlamak, orijinal eğitim setinizin temsili bir sınıf dağılımına sahip olduğundan emin olmadığınız sürece, buna …

1
Bir lmer modelden etkilerin tekrarlanabilirliğinin hesaplanması
Bu yazıda , karışık etki modellemesi ile bir ölçümün tekrarlanabilirliğini (diğer bir deyişle güvenilirlik, sınıf içi korelasyon) nasıl hesaplayacağımı anladım . R kodu şöyle olurdu: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

3
Eğitim, doğrulama ve test dahil olmak üzere çapraz doğrulama. Neden üç alt gruba ihtiyacımız var?
Çapraz doğrulama işlemiyle ilgili bir sorum var. Cursera'da Makine Öğrenimi kursunun ortasındayım. Konulardan biri Çapraz doğrulama ile ilgili. Takip etmesi biraz zor buldum. Neden CV'ye ihtiyacımız olduğunu biliyorum, çünkü modellerimizin gelecekteki (bilinmeyen) veriler üzerinde iyi çalışmasını istiyoruz ve CV aşırı yüklemeyi engelliyor. Ancak, sürecin kendisi kafa karıştırıcıdır. Anladığım kadarıyla verileri …

1
Serbestlik dereceleri tam sayı olmayan bir sayı olabilir mi?
GAM kullandığımda, artık DF (kodun son satırı) olduğunu gösteriyor. Bu ne anlama geliyor? GAM örneğinin ötesine geçmek, Genel olarak, serbestlik derecelerinin sayısı tam sayı olmayan bir sayı olabilir mi?26,626,626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

4
Eğitim aşaması ile değerlendirme aşaması arasında neden bir asimetri var?
Özellikle doğal dil işlemede, makine öğreniminin iki adımda, bir eğitim adımında ve bir değerlendirme adımında ilerlemesi ve farklı veriler kullanması gerektiği iyi bilinir. Bu neden? Sezgisel olarak, bu işlem verilerin fazladan yüklenmesini önlemeye yardımcı olur, ancak durumun (bilgi-teorik) nedenini göremiyorum. Buna göre, sırasıyla 2/3 ve 1/3 gibi bir veri setinin …

1
Çapraz doğrulama, doğrulama kümesi için uygun bir alternatif midir?
Metin sınıflandırmasında yaklaşık 800 örnekli bir eğitim setim ve yaklaşık 150 örnekli bir test setim var. Test seti hiç kullanılmamış ve sonuna kadar kullanılmayı bekliyor. Sınıflayıcıları ve özellikleri ayarlarken ve ayarlarken 10 kat çapraz doğrulama ile tüm 800 örnek eğitim setini kullanıyorum. Bu, ayrı bir doğrulama setine sahip olmadığım anlamına …

2
K-kat çapraz doğrulamada varyans tahminleri
K-katlama çapraz doğrulama, verilen bir sınıflandırıcının genelleme kapasitesini tahmin etmek için kullanılabilir. Ayrıca varyansı hakkında daha iyi bir tahminde bulunmak için tüm doğrulama işlemlerinden havuzlanmış bir varyansı hesaplayabilir miyim? Değilse neden? Çapraz doğrulama işlemlerinde havuzlanmış standart sapmayı kullanan kağıtlar buldum . Açıkça , validasyon varyansı için evrensel bir tahmin edici …

1
AIC ve BIC'in hangi çapraz-onaylama metotlarına eşdeğer olduğu R'de ampirik olarak nasıl gösterilebilir?
Bu sitenin başka bir yerindeki bir soruda , AIC'nin bir kez dışarıda bırakma (LOO) çapraz onaylamaya eşdeğer olduğunu ve BIC'nin K-kat çapraz onaylamaya eşdeğer olduğunu belirtti. Bunu R'de ampirik olarak göstermenin, LOO ve K-katlamada yer alan tekniklerin AIC ve BIC değerlerine eşdeğer olduğu açık bir şekilde gösterilebileceğini göstermenin bir yolu …
26 r  aic  cross-validation  bic 

4
Dahili ve harici çapraz doğrulama ve model seçimi
Anladığım kadarıyla çapraz doğrulama ve model seçimi ile iki şeyi ele almaya çalışıyoruz: P1 . Örneğimizle antrenman yaparken popülasyonda beklenen zararı tahmin et P2 . Bu tahmin konusundaki belirsizliğimizi ölçün ve rapor edin (varyans, güven aralıkları, önyargı vb.) Standart uygulama, tekrarlayan çapraz doğrulama yapmak gibi görünmektedir, çünkü bu tahmin edicimizin …

4
Çapraz doğrulama sonrasında 'test' veri setini nasıl kullanırsınız?
Bazı konferanslar ve öğreticiler eğitim, doğrulama ve test: Gördüğüm, bunlar üç bölüme verilerinizi bölmek düşündürmektedir. Ancak test veri setinin nasıl kullanılması gerektiği ve bu yaklaşımın tüm veri setindeki çapraz doğrulamadan nasıl daha iyi olduğu açık değildir. Diyelim ki verilerimizin% 20'sini bir test seti olarak kaydettik. Sonra gerisini alırız, onu katlara …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.