Ayrı modelleme / doğrulama kümeleri kullanarak bir regresyon modeli oluştururken, doğrulama verilerini “yeniden dolaşıma sokmak” uygun mudur?


13

Diyelim ki modelleme / doğrulama gözlemleri arasında 80/20 ayrımı var. Modelleme veri kümesine bir model sığdırıyorum ve doğrulama veri kümesinde gördüğüm hatadan rahatım. Gelecekteki gözlemleri puanlamak için modelimi sunmadan önce,% 100 verilerinde güncellenmiş parametre tahminleri almak için doğrulamayı modelleme verileriyle birleştirmek uygun mudur? Bununla ilgili iki bakış açısı duydum:

  1. Gerçekleştirdiğim doğrulama, model yapısının, yani uyguladığım öngörücüler ve dönüşümlerin bir doğrulamasıydı. Tahminlerimi güncellemek için kullanabileceğimde, verilerimin% 20'sini tabloda bırakmak mantıklı değil.

  2. Gerçekleştirdiğim doğrulama, kısmen modelleme veri kümemde hesapladığım parametre tahminlerinin bir doğrulamasıydı. Model uyumunu güncellersem, tahminleri değiştirdim ve güncellenen modelin performansını test etmek için artık objektif bir yolum yok.

Her zaman # 1 argümanını izledim, ancak daha yakın zamanda birkaç kişinin # 2'yi tartıştığını duydum. Başkalarının bu konuda ne düşündüğünü görmek istedim. Literatürde veya bu konuda başka bir yerde iyi tartışmalar gördünüz mü?

Yanıtlar:


6

Seçenek 1 doğru olanıdır. Modelinizin parametrelerini güncellemek için doğrulama veri kümesini ekleyebilirsiniz.

Cevap bu. Şimdi tartışalım. Yaptığınız şey 1. seçeneğinizdi. Eğer önyüklemenin k-kat çapraz doğrulamasını yaptıysanız (ve bunu yapmış olmalısınız - sorunuzdan net değil).

5 kat çapraz doğrulamada, sahip olduğunuz verileri eşit boyutta 5 rastgele kümeye böldünüz. Onlara A, B, C, D ve E diyelim. Sonra modelinizin (modelin kendisinin) parametrelerini A, B, C ve D gibi 4 sette öğrenirsiniz ve test eder veya doğrularsınız. beşinci model E. (Bunu sen yaptın). Ancak daha sonra test / doğrulama (D diyelim) olarak başka bir küme seçersiniz ve diğer 4'ü (A, B, C ve E) kullanmayı öğrenirsiniz. D'de test edin, tekrarlayın.

Tahmin modelinizdeki hata, 5 testin ortalama hatasıdır - ve tahmin hatasının nasıl öğrenme ve test setlerine bağlı olduğuna dair biraz bilginiz vardır. En iyi senaryoda, 5 hata ölçüsünün tümü benzerdir ve modelinizin gelecekte bu düzeyde performans göstereceğinden emin olabilirsiniz.

Ama hangi model? Her öğrenme seti için model için farklı bir parametreniz olacaktır. A, B, C, D ile öğrenme, P1 parametre seti üretir, A, B, C, E, parametre seti P2, P5'e kadar. Hiçbiri sizin modeliniz değil.

Test ettiğiniz, modelleri oluşturmak için bir prosedürün beklenen hatası , öğrenme seti A, B, C, D ve A, B, C, E vb. Beklenen hatayla bir model oluşturan bu yordam mı?

Son model nedir? Prosedürün mevcut tüm verilerinize uygulanmasıdır (A, B, C, D ve E). Daha önce hiç üretmediğiniz P0 parametre setine sahip yeni bir model, test etmek için verileriniz yok (P0 parametrelerini belirlemede tüm verileri "kullandığınızdan") ve yine de gelecekte gerçekleştireceği konusunda makul bir beklentiniz var Veriler diğer modellerle (P1, P2 ...) aynı prosedür kullanılarak oluşturulmuştur.

Çapraz doğrulama veya önyükleme gerçekleştirmediyseniz (bootstrap açıklamak biraz daha karmaşıktır - bu tartışmadan çıkarırım)? Yalnızca bir öğrenme / doğrulama bölümü ve bir hata ölçüsü gerçekleştirdiyseniz ne olur? Daha sonra, 2. argüman biraz doğru olabilir, ancak daha büyük bir sorununuz var - modelin hatasında sadece bir ölçü var ve bu hatanın doğrulamak için kullanılan verilere ne kadar bağımlı olduğunu bilmiyorsunuz. Belki de şans eseri,% 20 doğrulama setinizi tahmin etmek özellikle kolaydı. Birden fazla hata ölçüsü yapmadıysanız, tahmin modelinizin beklenen hata oranının gelecekteki veriler için aynı kalacağını varsaymak çok riskli olacaktır.

"Daha büyük risk" hangisi? Bu hatanın temelde gelecekteki veriler için aynı kalacağını varsaymak veya modelinizi öğrenmek için daha fazla veri eklemenin bir şekilde modeli "vidalayacağını" ve gelecekte hata oranını artıracağını varsayalım? Buna nasıl cevap vereceğimi gerçekten bilmiyorum, ancak daha fazla veriyle kötüleşen modellerden şüphelenirim ....

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.