Kaggle'ın özel skor tablosu kazanan modelin örnek dışı performansının iyi bir öngörücüsü mü?

Özel test setinin sonuçları modeli daha da hassaslaştırmak için kullanılamazken, özel test seti sonuçlarına dayanarak çok sayıda modelden model seçimi yapılmıyor mu? Tek başına bu süreç boyunca özel test setine fazla uyuşmaz mıydınız?

Göre : "Sözde Matematik ve Mali Şarlatanlık Out-of-the Numune Performansına Backtest overfitting Etkileri" Bailey ve arkadaşları tarafından aynı veri kümesinde değerlendirilen çok sayıda modelden en iyi olanı seçerken "tersine çevirmek" nispeten kolaydır. Bu Kaggle'ın özel skor tahtasında gerçekleşmiyor mu?

Özel skor tahtasında en iyi performans gösteren modellerin, örnek dışı verileri en iyi şekilde genelleştiren modeller olması için istatistiksel gerekçeler nelerdir?
Şirketler gerçekten kazanan modelleri kullanıyor mu yoksa özel liderlik panosu sadece "oyunun kurallarını" sağlamak için orada mı ve şirketler aslında sorunun tartışılmasından kaynaklanan içgörü ile daha mı ilgileniyor?

model-selection overfitting out-of-sample

— rinspy
kaynak

Biraz ilgili: stats.stackexchange.com/q/235591

— Kodiologist

Özel ve genel puanlar arasındaki farka bakabilirsiniz. Aşırı yerleştirilmemiş bir modelin her iki veri setinde de benzer performans elde etmesi gerektiği söylenebilir.

— shadowtalker

@shadowtalker Bu gerçekten aşırı uyumu tespit etmek için iyi bir yol olabilir, ama aslında ilgilendiğimiz şey, modelin örnek dışı tahmin gücüdür, aşırı uydurma derecesi değildir. Bir overfit modeli - örn., Örneklemeden çok daha iyi örnek içi çalışan - fazla model olmayan bir modelden daha iyi örnek dışı performansa sahip olabilir. Elimde bir referans yok, ancak karmaşık modelleri, örneğin CNN'leri kullanırken, örneğin bilgisayar görme gibi karmaşık alanlarda genellikle böyle olduğuna inanıyorum.

— rinspy

Sunacağınız noktalar adil, ancak kamu lider panosuna fazla oturan insanlarla ilgili çok daha gerçek bir sorun olduğunu düşünüyorum .

Eğer 100 yapmak ya gönderimleri böylece, genel test seti sonunda olacak bulunduğunda ortaya çıkabilir kanamadan sizin hyperparameter seçimine ve dolayısıyla overfit üzerinde. Bu konuda özel afişin gerekli olduğunu düşünüyorum.

— M Sef
kaynak