İstatistikler ve Büyük Veri cross-validation

5

Tren, doğrulama ve test yüzdelerinizin ne olduğuna nasıl karar verirsiniz?

Etiketlenmiş verilerimi eğitim, doğrulama ve test setlerine böldüğümde, 50/25/25 - 85/5/10 arasındaki her şeyi duydum. Eminim bu, modelinizi nasıl kullanacağınıza ve öğrenme algoritmanıza ne kadar uymaya eğilimli olduğuna bağlıdır. Karar vermenin bir yolu var mı yoksa hepsi kural mı? ELSII bile bu konuda belirsiz görünüyor.

10 machine-learning cross-validation

1

Anova () ve drop1 () neden GLMM'ler için farklı cevaplar verdi?

Formun bir GLMM var: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Kullandığımda , araç paketinden veya drop1(model, test="Chi")kullandığımdan farklı sonuçlar alıyorum . Bu son ikisi aynı cevapları verir.Anova(model, type="III")summary(model) Bir grup uydurma veri kullanarak, bu iki yöntemin normalde farklı olmadığını gördüm. Dengeli doğrusal …

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

2

Regresyon modellerinin çapraz doğrulamasında model kararlılığı

Lojistik regresyonun çoklu çapraz-validasyon katları ve her bir regresyon katsayısının sonuçta ortaya çıkan çoklu tahminleri göz önüne alındığında, bir öngörücünün (veya bir dizi belirleyicinin) regresyon katsayılarına göre kararlı ve anlamlı olup olmadığı nasıl ölçülmelidir? ? Bu doğrusal regresyon için farklı mıdır?

10 regression model-selection cross-validation

4

R'de değişken / özellik seçimi yapmak için çapraz doğrulamayı kullanmanın bir yolu var mı?

Kesmek istediğim yaklaşık 70 değişkenli bir veri setim var. Ne yapmak istiyorum CV aşağıdaki şekilde en yararlı değişkenleri bulmak için kullanın. 1) Rastgele 20 değişkenini seçin. 2) En önemli değişkenleri seçmek için stepwise/ LASSO/ lars/ etc kullanın. 3) ~ 50x tekrarlayın ve en sık hangi değişkenlerin seçildiğini (elimine edilmediğini) görün. …

10 r cross-validation feature-selection random-forest stepwise-regression

3

Çapraz doğrulama hakkında iyi literatür

Çapraz doğrulama tekniklerini öğrenmeye başlamak için iyi bir kitap / web sayfası bilen var mı?

10 references cross-validation

1

R'de çapraz doğrulayıcı kement regresyonu

R işlevi cv.glm (kütüphane: önyükleme), genelleştirilmiş doğrusal modeller için tahmini K-kat çapraz doğrulama tahmin hatasını hesaplar ve deltayı döndürür. Bu işlevi bir kement regresyonu (kütüphane: glmnet) için kullanmak mantıklı mı ve eğer öyleyse, bu nasıl yapılabilir? Glmnet kütüphanesi, en iyi dönüş parametresini elde etmek için çapraz doğrulamayı kullanır, ancak son …

10 r regression cross-validation lasso glmnet

2

İç içe çapraz doğrulama - eğitim setindeki kfold CV ile model seçiminden farkı nedir?

Sıklıkla 5x2 çapraz doğrulamadan bahseden insanların iç içe çapraz doğrulamanın özel bir örneği olduğunu görüyorum . İlk sayının (burada: 5) iç döngüdeki kat sayısını ve ikinci sayı (burada: 2) dış döngüdeki kat sayısını ifade ettiğini varsayıyorum? Peki, bunun "geleneksel" model seçim ve değerlendirme yaklaşımından farkı nedir? "Geleneksel" derken veri kümesini …

10 machine-learning cross-validation hyperparameter

2

Yuvalanmış çapraz doğrulamanın uygulanması

İç içe çapraz doğrulama anlayışımın doğru olup olmadığını anlamaya çalışıyorum, bu yüzden doğru olup olmadığımı görmek için bu oyuncak örneğini yazdım: import operator import numpy as np from sklearn import cross_validation from sklearn import ensemble from sklearn.datasets import load_boston # set random state state = 1 # load boston dataset …

10 cross-validation python scikit-learn

4

R'de Kesikli Zaman Olay Geçmişi (Hayatta Kalma) Modeli

R'de ayrık zamanlı bir model yerleştirmeye çalışıyorum, ancak nasıl yapılacağından emin değilim. Bağımlı değişkeni farklı satırlarda, her bir zaman gözlemi için bir tane düzenleyebileceğinizi ve glmbir logit veya cloglog bağlantısıyla işlevi kullanabileceğinizi okudum. Bu anlamda, üç sütun vardır: ID, Event(her zaman atıl 1 ya da 0) ve Time Elapsedek olarak, …

10 r survival pca sas matlab neural-networks r logistic spatial spatial-interaction-model r time-series econometrics var statistical-significance t-test cross-validation sample-size r regression optimization least-squares constrained-regression nonparametric ordinal-data wilcoxon-signed-rank references neural-networks jags bugs hierarchical-bayesian gaussian-mixture r regression svm predictive-models libsvm scikit-learn probability self-study stata sample-size spss wilcoxon-mann-whitney survey ordinal-data likert group-differences r regression anova mathematical-statistics normal-distribution random-generation truncation repeated-measures variance variability distributions random-generation uniform regression r generalized-linear-model goodness-of-fit data-visualization r time-series arima autoregressive confidence-interval r time-series arima autocorrelation seasonality hypothesis-testing bayesian frequentist uninformative-prior correlation matlab cross-correlation

2

Tahmin hatasını test etmek için GAM çapraz doğrulaması

Sorularım mgcv R paketindeki GAM'lerle ilgilidir . Küçük bir örneklem büyüklüğü nedeniyle, bir kereye mahsus bırakma çapraz doğrulaması kullanarak tahmin hatasını belirlemek istiyorum. Bu makul mi? Bunu nasıl yapabilirim bir paket veya kod var mı? errorest()İşlevi IPRED paketin çalışmaz. Basit bir test veri kümesi: library(mgcv) set.seed(0) dat <- gamSim(1,n=400,dist="normal",scale=2) b<-gam(y~s(x0)+s(x1)+s(x2)+s(x3),data=dat) …

10 r cross-validation gam mgcv

1

Çapraz doğrulama kullanırken tahmin aralıklarının hesaplanması

Standart sapma tahminleri şu şekilde hesaplanıyor mu? sN-=1N-ΣN-i = 1(xben-x¯¯¯)2-------------√.sN-=1N-Σben=1N-(xben-x¯)2. s_N = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2}. ( http://en.wikipedia.org/wiki/Standard_deviation#Sample_standard_deviation ) kat çapraz geçerlemeden örneklenen tahmin doğrulukları için? Her bir kat arasında hesaplanan tahmin doğruluğunun, eğitim setleri arasındaki önemli örtüşme nedeniyle bağımlı olduğundan endişe ediyorum (tahmin kümeleri bağımsız olmasına rağmen). Bunu …

10 confidence-interval cross-validation prediction prediction-interval

2

R'de çok değişkenli sonuçlar nasıl simüle edilir?

Çoğu durumda, yalnızca gibi bir sonuç / yanıt değişkeni ile ilgileniriz . Bununla birlikte, bazı senaryolarda, özellikle klinik verilerde, sonuç değişkenleri yüksek boyutlu / çok değişkenli olabilir. Mesela , içerir , ve değişkenleri ve bu sonuçların her ilişkilidir. Eğer tedavi temsil ediyorsa (evet / hayır), bu tür verileri R cinsinden …

10 r cross-validation

2

Ordinal lojistik regresyonda AUC

2 çeşit lojistik regresyon kullanıyorum - biri ikili sınıflandırma için basit tip, diğeri sıralı lojistik regresyon. İlkinin doğruluğunu hesaplamak için çapraz doğrulama kullandım, burada her kat için AUC'yi hesapladım ve ortalama AUC'yi hesapladım. Sıralı lojistik regresyon için nasıl yapabilirim? Çok sınıflı öngörücüler için genelleştirilmiş ROC'yi duydum, ancak nasıl hesaplanacağından emin …

10 logistic cross-validation roc auc ordered-logit

1

Bir defaya mahsus çapraz doğrulama için ROC eğrilerini nasıl üretiyorsunuz?

5 kat çapraz doğrulama gerçekleştirirken (örneğin), 5 katın her biri için ayrı bir ROC eğrisi ve genellikle std ile ortalama bir ROC eğrisinin çarpımı tipiktir. dev. eğri kalınlığı olarak gösterilmiştir. Bununla birlikte, her katta sadece tek bir test veri noktasının bulunduğu LOO çapraz doğrulaması için, bu tek veri noktası için …

10 cross-validation roc

2

RMSE ve MAE aynı değere sahip olabilir mi?

Çapraz doğrulama uyguluyorum ve RMSE, , MAE, MSE, vb. Gibi hata metriklerini hesaplıyorum .R2R2R^2 RMSE ve MAE aynı değere sahip olabilir mi?

9 cross-validation rms mae

«cross-validation» etiketlenmiş sorular