Not: Dava n >> p
İstatistiksel Öğrenme Öğelerini okuyorum ve çapraz doğrulama yapmanın "doğru" yoluyla ilgili çeşitli görüşler var (örneğin sayfa 60, sayfa 245). Spesifik olarak sorum, son modelin (ayrı bir test seti olmadan) k-fold CV kullanarak veya bir model araması yapıldığında önyükleme kullanarak nasıl değerlendirileceğidir? Çoğu durumda (gömülü özellik seçimi olmayan ML algoritmaları) olacağı görülüyor
- Bir özellik seçimi adımı
- Bir meta parametre seçim adımı (örn. SVM'deki maliyet parametresi).
Sorularım:
- Özellik seçimi adımının tüm eğitim setinde özellik seçiminin yapıldığı ve bir kenara bırakılabildiğini gördüm. Daha sonra, k-katlama CV kullanarak, özellik seçim algoritması her katlamada (her seferinde muhtemelen seçilen farklı özelliklerin alınması) kullanılır ve hatanın ortalaması alınır. Ardından, son modu eğitmek için tüm verileri (bir kenara konan) kullanarak seçilen özellikleri kullanırsınız, ancak çapraz doğrulamadaki hatayı modelin gelecekteki performansının bir tahmini olarak kullanırsınız. BU DOĞRU MU?
- Model parametrelerini seçmek için çapraz doğrulama kullanıyorsanız, daha sonra model performansını nasıl tahmin edersiniz? ÜZERİNDEKİ AYNI İŞLEM OLARAK 1 NEDİR, SAYFA 54 ( pdf ) VEYA BAZI BİR ŞEYDEKİ GİBİ GEREKTİRİLMİŞ CV KULLANMALIDIR MİSİNİZ ?
- Her iki adımı da yaparken (özellik ve parametre ayarı) ..... o zaman ne yaparsınız? karmaşık iç içe döngüler?
- Ayrı bir bekletme örneğiniz varsa, endişeler gider ve özellikleri ve parametreleri seçmek için çapraz doğrulama kullanabilirsiniz (performans tahmininiz bir bekletme setinden geleceğinden endişelenmeden)?