Çeşitli modeller veya eklenecek özelliklerin arasında seçim yapmaya çalışırken, iki yaklaşım düşünebileceğimi tahmin ediyorum.
- Verileri eğitim ve test setlerine ayırın. Daha da iyisi, önyükleme ya da k-kat çapraz doğrulama kullanın. Her seferinde egzersiz setini eğitin ve test setindeki hatayı hesaplayın. Plot test hatası - parametre sayısı. Genellikle, böyle bir şey olsun:
- Parametre değerleri üzerine entegre ederek modelin olasılığını hesaplayın. yani, hesaplayın ve bunu parametre sayısına göre çizin. Sonra böyle bir şey alırız:
Yani benim sorularım:
- Bu yaklaşımlar bu problemi çözmek için uygun mudur (modelinize kaç tane parametre dahil edeceğinize karar vermek ya da birkaç model arasından seçim yapmak)?
- Eşdeğer mi? Muhtemelen değil. Belirli varsayımlar altında veya pratikte aynı optimal modeli verecekler mi?
- Bayes mankenlerinde vs. önceki bilgileri belirtmenin olağan felsefi farkı dışında, her bir yaklaşımın artıları ve eksileri nelerdir? Hangisini seçtin?
Güncelleme: AIC ve BIC karşılaştırmasıyla ilgili soruyu da buldum . Benim yöntem 1'in AIC ile asimptotik olarak eşdeğer olduğu ve yöntem 2'nin BIC ile asimptotik olarak ilişkili olduğu görülmektedir. Ama aynı zamanda orada BIC’nin Leave-One-Out CV’ye eşdeğer olduğunu da okudum. Bu, asgari eğitim hatasının ve Bayesian Olabilirlik maksimumunun, LOO CV'nin K-kat CV'ye eşdeğer olduğu durumlarda eşdeğer olduğu anlamına gelir. Jun Shao'nun belki de çok ilginç bir makalesi " Doğrusal model seçimi için asimptotik bir teori " bu konularla ilgilidir.