CrossValidated'da model seçimi ve çapraz onaylama konusunda sayısız konu vardır. Burda biraz var:
- Dahili ve harici çapraz doğrulama ve model seçimi
- @ DikranMarsupial'ın Özellik seçimi ve çapraz doğrulama için en iyi cevabı
Bununla birlikte, bu konulara verilen cevaplar oldukça geneldir ve çoğunlukla geçerlilik testi ve model seçimine yönelik özel yaklaşımlarla ilgili konuları vurgulamaktadır.
İşleri mümkün olduğunca somut hale getirmek için, örneğin bir RBF çekirdeğine sahip bir SVM ile çalıştığımızı söyleyin: ve X ve y etiket özelliklerinin veri kümesine sahibim.
- Modelimin mümkün olan en iyi değerlerini bulun ( and )
- SVM'yi veri setimle eğitin (son dağıtım için)
- Genelleme hatasını ve bu hatanın etrafındaki belirsizliği (sapma) tahmin edin
Bunu yapmak için kişisel olarak bir ızgara araştırması yapardım, örneğin her olası ve kombinasyonunu denerim . Basit olması için aşağıdaki aralıkları varsayabiliriz:
Daha spesifik olarak, tam veri setimi kullanarak aşağıdakileri yaparım:
- Her ( , ) çifti için, veri setimde kat çapraz doğrulama (örn. ) yinelemelerini (örn. 100 rastgele tekrar), veri setime tekrar yapıyorum, yani SVM'mi katları üzerinde eğitiyorum ve soldaki kattaki hata, tüm kıvrımlarını yineleyerek . Genel olarak, 100 x 10 = 1000 test hatası toplarım.
- Böyle bir ( , ) çifti için, bu 1000 test hatasının ortalamasını ve varyansını hesaplarım .
Şimdi nihai SVM'mi tam veri setinde eğitmek için kullanacağım en iyi modeli (en iyi çekirdek parametreleri) seçmek istiyorum. Benim anlayış vardı modelinin seçilmesi olmasıdır düşük hata ortalama ve varyansını ve doğru seçim olacaktır ve bu model en o olan zaman eğitim ile modelin genelleme hatası önyargı ve varyans benim en iyi tahminlerdir tam veri kümesi.
ANCAK, yukarıdaki konu başlıklarındaki cevapları okuduktan sonra, dağıtım için ve / veya hatasını (genelleme performansı) tahmin etmek için en iyi SVM'yi seçmek için bu yöntemin hatalı olduğu ve daha iyi bir seçim yolu olduğu izlenimini alıyorum. en iyi SVM ve hatayı bildirmek. Eğer öyleyse, bunlar nedir? Somut bir cevap arıyorum lütfen.
Bu sorunun tutunan, nasıl özellikle ben seçebilir iyi modeli ve düzgün bir genelleme hatası tahmin ?