Regresyon modelleri arasında seçim yapmak için k-katlamalı CV kullanırken, genellikle standart hatası SE ile birlikte her model için CV hatasını ayrı ayrı hesaplıyorum ve en düşük CV hatasına sahip modelin 1 SE'sinde en basit modeli seçiyorum (1 standart hata kuralı için buraya bakınız ). Ancak, son zamanlarda bana bu şekilde değişkenliği abarttığımı ve iki A ve B modeli arasında seçim yapma durumunda, gerçekten farklı bir şekilde ilerlemem gerektiği söylendi:
- her kat için uzunluğunda , iki model öngörüsü arasındaki nokta farklarını hesaplayın, ardından
- her zamanki gibi katlar arasında ortalama ve genelleme hatası için bir tahminci olarak bu CV fark hatasını (standart hatasıyla birlikte) kullanın.
Sorular:
- bu sana bir anlam ifade ediyor mu? Genelleme hatasının bir tahmincisi olarak CV hatasının kullanılmasının arkasında teorik nedenler olduğunu biliyorum (bu nedenlerin hangileri olduğunu bilmiyorum, ama var olduklarını biliyorum!). Bu "fark" CV hatasının kullanılmasının arkasında teorik nedenler olup olmadığı hakkında hiçbir fikrim yok.
- Bunun ikiden fazla modelin karşılaştırmasına genelleştirilip genelleştirilemeyeceğini bilmiyorum. Tüm model çiftleri için farklılıkları hesaplamak riskli görünmektedir (çoklu karşılaştırmalar?): İkiden fazla modeliniz olsaydı ne yapardınız?
DÜZENLEME: Benim formül doğru metrik açıklanmıştır tamamen yanlış burada ve çok daha karmaşık. Formülü körü körüne uygulamadan önce burada sorduğum için mutluyum! @Bay'e aydınlatıcı yanıtı anlamama yardımcı olduğu için teşekkür ederim. Açıklanan doğru önlem oldukça deneysel, bu yüzden güvenilir iş atım CV dosyasına yapışacağım!