«cross-validation» etiketlenmiş sorular

Gizli veri alt kümelerindeki model performansını ölçmek için, model uydurma sırasında verilerin alt kümelerini sürekli olarak saklamak.

1
R - serbestlik derecesinde PROC Mixed ve lme / lmer arasındaki farklar
Not: önceki sorumun yasal nedenlerle silinmesi gerektiğinden, bu soru bir gönderidir. Fonksiyonlu SAS PROC MIXED karşılaştırarak birlikte lmegelen nlmeR paketin, bazı çok kafa farklılıklar tökezledi. Daha spesifik olarak, farklı testlerdeki özgürlük dereceleri ve arasında farklılık gösterir PROC MIXEDve lmenedenini merak ettim. Aşağıdaki veri kümesinden başlayın (R kodu aşağıda verilmiştir): ind: …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

2
Çapraz doğrulama ve sıralı lojistik regresyon
Ordinal lojistik regresyon için çapraz doğrulamayı anlamaya çalışıyorum. Oyunun amacı bir analizde kullanılan modeli doğrulamaktır ... İlk önce bir oyuncak veri seti oluşturdum: set.seed(1) N <- 10000 # predictors x1 <- runif(N) x2 <- runif(N) x3 <- runif(N) # coeffs in the model a <- c(-2,-1) x <- -x1+2*x2+x3 # …

2
Ana bileşenlerin sayısını belirlemek için PCA için çapraz doğrulama nasıl yapılır?
Temel bileşen analizi için kendi fonksiyonumu yazmaya çalışıyorum, PCA (tabii ki zaten yazılmış çok şey var ama sadece kendi başıma bir şeyler uygulamakla ilgileniyorum). Karşılaştığım temel sorun çapraz doğrulama adımı ve öngörülen karelerin toplamının (PRESS) hesaplanmasıdır. Hangi çapraz doğrulamayı kullandığım önemli değil, esasen arkasındaki teori ile ilgili bir soru, ancak …


3
Zaman Serisi Verilerini Tren / Test / Doğrulama Kümelerine Bölme
Zaman serisi verilerini tren / test / validasyon setlerine ayırmanın en iyi yolu nedir, validasyon seti hiperparametre ayarı için kullanılacaktır? 3 yıllık günlük satış verilerine sahibiz ve planımız eğitim verileri olarak 2015-2016'yı kullanmak, ardından doğrulama seti olarak kullanılacak 2017 verilerinden 10 hafta ve 2017 verilerinden 10 hafta sonra rastgele örneklemektir. …

2
Çapraz doğrulama ile glmnet paketindeki Sapma ölçümünün tam tanımı?
Mevcut araştırma için Binom bağımlı bir değişkene R glmnet paketi aracılığıyla Kement yöntemini kullanıyorum. Glmnet'te optimal lambda çapraz validasyon yoluyla bulunur ve ortaya çıkan modeller çeşitli ölçümlerle karşılaştırılabilir, örneğin yanlış sınıflandırma hatası veya sapma. Benim sorum: glmnet'te sapma tam olarak nasıl tanımlanır? Nasıl hesaplanır? (Friedman ve ark.'nın "Koordinat İniş Yoluyla …


2
Verileri test ve eğitim setlerine ayırmak yalnızca bir “istatistik” midir?
Ben makine öğrenimi / veri bilimi okuyan bir fizik öğrencisiyim, bu yüzden bu sorunun herhangi bir çatışmaya başlamasını istemiyorum :) Ancak, herhangi bir fizik lisans programının büyük bir kısmı laboratuvarlar / deneyler yapmaktır, bu da çok fazla veri anlamına gelir. işleme ve istatistiksel analiz. Ancak, fizikçilerin verilerle ilgilenme şekli ile …

2
Hata oranı lambda Düzenleme parametresinin Dışbükey işlevi midir?
Ridge veya Lasso'daki lambda düzenleme parametresini seçerken önerilen yöntem lambda'nın farklı değerlerini denemek, Doğrulama Kümesindeki hatayı ölçmek ve son olarak en düşük hatayı döndüren lambda değerini seçmektir. F (lambda) = hatası Convex ise bu benim için bir sorun değil. Böyle olabilir mi? Bu eğrinin birden fazla yerel minimi olabilir (bu, …

4
Bekletme kümesi oluşturmanın daha uygun yolu nedir: bazı konuları kaldırmak veya her konudan bazı gözlemleri kaldırmak?
26 özellikli ve 31000 satırlı bir veri setim var. 38 deneğin veri kümesidir. Biyometrik bir sistem içindir. Bu yüzden konuları tanımlayabilmek istiyorum. Bir test setine sahip olmak için, bazı değerleri kaldırmam gerektiğini biliyorum. Peki ne yapmak daha iyi ve neden? (a) 30 kişiyi eğitim seti olarak saklayın ve 8 kişiyi …

1
Neden geniş bir K seçeneği çapraz doğrulama puanımı düşürüyor?
İle oynamak Boston Konut Verisetinin ve RandomForestRegressor(w / varsayılan parametreleri) Garip bir şey fark, scikit-öğrenme: ortalama çapraz doğrulama puanı azaldı My çapraz doğrulama stratejisi olarak oldu şu 10 öteye kıvrımları sayısını artırdı olarak: cv_met = ShuffleSplit(n_splits=k, test_size=1/k) scores = cross_val_score(est, X, y, cv=cv_met) ... neredeydi num_cvs. Ben set test_sizeiçin 1/num_cvsk …

2
Karmaşık anket verilerinde LASSO'dan sonra çapraz doğrulama
Sürekli bir sonuçla LASSO kullanan bazı aday öngörücülerde model seçimi yapmaya çalışıyorum. Amaç, LASSO'dan ayarlama parametrelerinin bir çözüm yolunu elde ettikten sonra genellikle K-kat çapraz doğrulaması ile yapılabilen en iyi tahmin performansına sahip optimal modeli seçmektir. Burada mesele, verilerin küme örneklemesi ve tabakalandırması ile karmaşık çok aşamalı bir anket tasarımından …

3
Çapraz onaylı sınıflandırma doğruluğu için güven aralığı
İki giriş x-ray görüntüleri arasında benzerlik metriği hesaplayan bir sınıflandırma sorunu üzerinde çalışıyorum. Görüntüler aynı kişiden geliyorsa ('sağ' etiketi), daha yüksek bir metrik hesaplanır; iki farklı kişinin giriş görüntüleri ('yanlış' etiketi) daha düşük bir metrikle sonuçlanır. Yanlış sınıflandırma olasılığını hesaplamak için tabakalı 10 kat çapraz doğrulama kullandım. Şu anki örnek …

1
Çapraz doğrulama kullanırken ortalama hassasiyet ve hatırlama
2 sınıf etiketli veriler için birden fazla sınıflandırıcı kullanarak sınıflandırma yaptım ve 5 kat çapraz doğrulama kullandım. Her kat için tp, tn, fp ve fn hesapladım. Sonra her test için doğruluk, kesinlik, geri çağırma ve F-skorunu hesapladım. Sorum şu: Sonuçları ortalamak istediğimde, ortalama doğrulukları aldım, ancak hassasiyeti, hatırlamayı ve F-puanını …


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.