Düzeltme - Tekrarlanan K katlama çapraz doğrulaması ve İç içe K katlama çapraz doğrulaması, n kez tekrarlandı


16

Şapka paketi birden makine öğrenme modellerini oluşturmak için parlak bir Ar kütüphane ve model oluşturma ve değerlendirme için çeşitli fonksiyonlara sahiptir. Parametre ayarlama ve model eğitimi için düzeltme paketi, yöntemlerden biri olarak 'tekrarlanancv' sunar.

İyi bir uygulama olarak, parametre ayarlama aşağıdaki şekilde çalışan iç içe K-kat çapraz doğrulaması kullanılarak yapılabilir:

  1. Eğitim setini 'K' alt kümelerine ayırın
  2. Her bir yinelemede, model eğitimi için 'K eksi 1' altkümelerini alın ve model testi için 1 altkümeyi (tutma seti) saklayın.
  3. Ayrıca, 'K eksi 1' eğitimini 'K' alt kümelerine ayırın ve parametre ayarı (şebeke arama) için yeni 'K eksi 1' alt kümesini ve 'doğrulama kümesini' tekrarlayın. Bu adımda tanımlanan en iyi parametre, 2. adımda ayarlanan ayırmayı test etmek için kullanılır.

Öte yandan, tekrarlanan K-kat çapraz doğrulamanın, model varyansı bulmayı seçtiğimiz kadar adım 1 ve 2'yi tekrar tekrar tekrarlayabileceğini varsayıyorum.

Bununla birlikte, düzeltme kılavuzu içindeki algoritmadan geçerek, 'tekrarlanancv' yöntemi, çapraz doğrulamanın tekrarlanmasına ek olarak, iç içe K-kat çapraz doğrulaması da gerçekleştirebilir gibi görünüyor.

şapka tren algoritması https://topepo.github.io/caret/training.html

Sorularım:

  1. Düzeltme işareti 'tekrarlıcv' yöntemi hakkında anlamsızlığım doğru mu?
  2. Değilse, düzeltme paketi kullanarak 'tekrarlanancv' yöntemiyle iç içe K katlama çapraz doğrulamanın kullanımına bir örnek verebilir misiniz?

Düzenle:

Farklı çapraz geçerlilik stratejileri bu metodoloji makalesinde açıklanmış ve karşılaştırılmıştır.

Krstajic D, Buturovic LJ, Leahy DE ve Thomas S : Regresyon ve sınıflandırma modellerini seçerken ve değerlendirirken çapraz doğrulama güçlükleri . Cheminformatics Dergisi 2014 6 (1): 10. DOI: 10.1186 / 1758-2946-6-10

Caret paketi kullanarak “Algoritma 2: tekrarlanan tabakalı iç içe çapraz doğrulama” ve “Algoritma 3: değişken seçimi ve parametre ayarı için tekrarlanan ızgara arama çapraz doğrulaması” ile ilgileniyorum .

Yanıtlar:


2

Sunulan (iç içe) algoritmada yanlış bir şey yoktur ve aslında, farklı veri kümelerindeki sapma-varyans problemi için iyi bir sağlamlık ile iyi performans gösterecektir. Bununla birlikte, okuyucunun kullandığınız özelliklerin en "en uygun" olduğunu varsayması gerektiğini hiç söylemediniz, bu yüzden bilinmiyorsa, öncelikle ele alınması gereken bazı özellik seçimi sorunları vardır.

ÖZELLİK / PARAMETRE SEÇİMİ

wrbirpperfbenlterözellik (parametre) seçim yanlılığını en aza indirmeye çalışmak için sınıflandırıcıdan / modelden çok kaldırılan farklı bir yöntem kullanır. Özellik seçimi (GJ McLachlan) sırasında sarma ve filtreleme ve seçim yanlılığına bakın.

D1D2n=50π=0.1n,0.2n,0,3n,0.4n,0.5n

OPTIMIZATION / AZALTMA

y=f(x1,x2,...,xj)ysürekli olarak ölçeklendirilir. Bu göz önüne alındığında ve tahminlerinizdeki önyargıyı en aza indirme ihtiyacı (seçim yanlılığı, önyargı-varyans, test nesnelerinden eğitim nesnelerine bilgi sızıntısı, vb.) Gibi, sürü zeka yöntemlerinin kullanımı sırasında CV kullanma gibi partikül sürüsü optimizasyonu (PSO), karınca kolonisi optimizasyonu, vb. PSO (bkz. Kennedy ve Eberhart, 1995), öğrenme sırasında parametre alanı boyunca uçarken partiküller arasında sosyal ve kültürel bilgi alışverişi için parametreler ekler. Sürü istihbarat yöntemlerini öğrendikten sonra, parametre belirlemede çok fazla önyargının üstesinden gelebileceğinizi göreceksiniz. Son olarak, işlev yaklaşımı için rastgele bir orman (RF, bkz. Breiman, Makine Öğreniminin Yolculuğu) yaklaşımı olup olmadığını bilmiyorum, ancak varsa,

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.