Çapraz doğrulama dışında hiperparametre ayarlaması yapmanın, dış geçerliliğin yanlı yüksek tahminlerine yol açabileceğini biliyorum, çünkü performansı ölçmek için kullandığınız veri seti özellikleri ayarlamak için kullandığınız veri kümesiyle aynıdır.
Merak ettiğim bir problemin ne kadar kötü olduğu . Özellik seçimi için nasıl kötü olacağını anlayabiliyorum, çünkü bu size ayarlamanız gereken çok sayıda parametre veriyor. Peki ya LASSO (sadece bir parametresi, düzenlenme gücü olan) veya özellik seçimi olmayan rastgele bir orman (birkaç parametreye sahip olabilir, ancak gürültü özellikleri eklemek / bırakmak gibi dramatik bir şey yok) gibi bir şey kullanıyorsanız ne olacak?
Bu senaryolarda, eğitim hatası tahmininizin ne kadar iyimser olmasını beklersiniz?
Bu konuda herhangi bir bilgi için minnettar olurum - vaka çalışmaları, makaleler, fıkralar, vb. Teşekkürler!
DÜZENLEME: Ben değilim, netleştirmek için değil (yani hiç çapraz doğrulama kullanarak değil) eğitim verilerine modeli performansını tahmin bahsediyorum. "Çapraz-validasyonun dışında hiperparametre ayarı" ile kastediyorum, sadece her bir modelin performansını tahmin etmek için çapraz-validasyon kullanmak, fakat hiperparametre ayarlama prosedüründe aşırı uyumu düzeltmek için bir dış, ikinci çapraz-doğrulama döngüsü içermemek eğitim prosedürü sırasında aşırı sığdırma). Örneğin buradaki cevaba bakınız .