Bu [dış çapraz doğrulama] çıktısından bir modeli nasıl seçerim?
Kısa cevap: Yapmazsın.
Tedavi , iç model oturtma prosedürünün bir parçası olarak çapraz doğrulama. Bu, hiper parametrelerin uydurulmasını içeren armatürün (bu, iç çapraz geçerliliğin gizlendiği yer), başka herhangi bir model emisyon rutini gibi olduğu anlamına gelir.
Dış çapraz doğrulama, bu model uydurma yaklaşımının performansını tahmin eder. Bunun için normal varsayımları kullanırsınız
- k dış vekil modelleri tarafından inşa "gerçek" modeline eşdeğerdir
model.fitting.procedure
tüm verilerle.
- k
k
Öyleyse model seçimi için iç içe CV'yi nasıl kullanabilirim?
İç CV bir seçim yapar.
Bana göre, bu K kazanan modellerden en iyi modelin seçilmesi, her modelin veri setinin farklı bölümlerinde eğitildiği ve test edildiği için adil bir karşılaştırma olmayacaktı.
k
- Aynı test verilerine sahip olmamak: Daha sonra test sonuçlarının hiç görülmemiş verileri genelleştirdiğini iddia etmek istediğinizde, bu bir fark yaratamaz.
- Aynı eğitim verilerine sahip olmamak:
- eğer modeller stabil ise, bu bir fark yaratmaz: Burada kararlıdır, eğer eğitim verileri birkaç durumda diğer vakalarla değiştirilerek "tedirgin edilirse" modelin değişmeyeceği (çok) anlamına gelir.
- modeller kararlı değilse üç husus önemlidir:
- k
- k
- Eğer dengesizlik gerçek bir problemse, "gerçek" modelin performansına iyi bir tahminde bulunamazsınız.
Bu beni son sorunuza getiriyor:
Dış K kıvrımlarından aldığım puanlarla ne tür analiz / kontroller yapabilirim?
- Tahminlerin istikrarını kontrol edin (yinelenen / tekrarlanan çapraz doğrulama kullanın)
Optimize edilmiş hiper parametrelerin stabilitesini / varyasyonunu kontrol ediniz.
Birincisi, çılgınca saçılma hiper parametreleri iç optimizasyonun işe yaramadığını gösterebilir. Başka bir şey için, bu, gelecekte benzer durumlarda pahalı optimizasyon adımı olmadan hiperparametrelere karar vermenize izin verebilir. Maliyetli olarak, hesaplama kaynaklarına değil, "normal" model parametrelerinin tahmin edilmesinde daha iyi kullanılabilecek olan bu "maliyet" bilgisine atıfta bulunuyorum.
Seçilen modelin iç ve dış tahmini arasındaki farkı kontrol edin. Eğer büyük bir fark varsa (iç çok aşırı hareketsizdir), iç optimizasyonun fazla uydurma nedeniyle iyi çalışmaması riski vardır.
update @ user99889'ın sorusu: Dış CV kararsızlık bulursa ne yapmalı?
Her şeyden önce, dış CV döngüsünde modellerin bu konuda istikrarlı tahminler üretmediğini tespit etmek, önceden değerlendirme hatasının uygulama için çok yüksek olduğunu tespit etmekten gerçekten farklı değildir. Sahip olduğumuz modelin amacına uygun olmadığını belirten olası model doğrulama (veya doğrulama) sonuçlarından biridir.
@Davips yanıtlayan yorumunda, iç CV'deki dengesizliği ele almayı düşünüyordum - yani model optimizasyon sürecinin bir parçası olarak.
Ancak kesinlikle haklısınız: Modelimizi dış CV'nin bulgularına dayanarak değiştirirsek, yine de değiştirilen modelin bağımsız bir şekilde test edilmesi gerekir.
Bununla birlikte, dış CV'deki kararsızlık aynı zamanda optimizasyonun iyi kurulmadığının da bir işareti olacaktır - bu nedenle dış CV'de kararsızlığı bulmak, iç CV'nin kararsızlığı gerekli şekilde cezalandırmadığı anlamına gelir - bu benim ana amacım olacaktır. böyle bir durumda eleştiri. Başka bir deyişle, optimizasyon neden modellerin aşırı derecede üst üste gelmesine izin veriyor / sağlıyor?
Ancak, IMHO bu bir özelliği burada var olabilir sonra "nihai" modelinin başka bir değişiklik mazur kesin koşulların dikkatle değerlendirilmesi : Biz modele, önerilen herhangi bir değişiklik (daha az df / daha kısıtlayıcı veya birikme) overfitting algılamak yaptığı gibi olur daha az fazladan takma yönünde (veya en azından fazladan takılmaya yatkın olan hiperparametreler) yönünde olmalıdır. Bağımsız testlerin amacı aşırı uyumu saptamaktır - yetersiz kalma, eğitim sürecinde zaten kullanılan verilerle tespit edilebilir.
Yani, eğer bir PLS modelinde karşılaştırılabilir derecede iyi huylu olacak olan gizli değişkenlerin sayısının daha da azaltılması hakkında konuşuyorsak (önerilen değişiklik tamamen farklı bir modelse, SVM yerine PLS diyoruz, tüm bahisler kapalı sayılır) ) ve yine de modellemenin orta aşamasında olduğumuzu bilsem daha rahat edeceğim - sonuçta, eğer optimize edilmiş modeller hala dengesizse, daha fazla vakanın gerekli olduğu sorusu yoktur. Ayrıca, birçok durumda, performansın çeşitli yönlerini (örneğin gelecekte elde edilen verilere genelleme) uygun şekilde test etmek için tasarlanmış çalışmalar yapmanız gerekecektir. Yine de, tam modelleme sürecinin rapor edilmesi gerektiği ve bu geç değişikliklerin sonuçlarının dikkatlice tartışılması gerektiği konusunda ısrar ediyorum.
Ayrıca, performansın poşet dışı analog CV tahmini de dahil olmak üzere toplama , halihazırda mevcut olan sonuçlardan mümkün olacaktır - ki bu, burada iyi niyetli olarak düşünmek istediğim modelin diğer "işleme sonrası" tipidir. Yine de, çalışmanın, toplanmanın bireysel preklanslara göre hiçbir avantaj sağlamayacağından emin olmak için tasarlanması daha iyi olurdu (bireysel modellerin istikrarlı olduğunu söylemenin başka bir yoludur).
Güncelleme (2019): Bu durumlar hakkında ne kadar çok düşünürsem, o kadar çok “iç içe geçmeden görünüşte iç içe çapraz doğrulama” yaklaşımını tercih etmeye geldim .