Daha önce aşağıdaki ifadeyi duydum:
"Optimizasyon, istatistikteki tüm kötülüklerin köküdür".
Örneğin, bu konudaki en önemli yanıt, bu ifadeyi model seçimi sırasında çok agresif bir şekilde optimize etme tehlikesine atıfta bulunur.
İlk sorum şu: Bu alıntı özellikle herhangi birine atfedilebilir mi? (örneğin istatistik literatüründe)
Anladığım kadarıyla, ifade aşırı uyum risklerini ifade ediyor. Geleneksel bilgelik, doğru çapraz validasyonun zaten bu soruna karşı savaştığını söyler, ancak bu problemde bundan daha fazlası var gibi görünüyor.
İstatistikçiler ve ML uygulayıcıları, sıkı çapraz doğrulama protokollerine (örn. 100 iç içe 10 kat CV) uyurken bile modellerini aşırı optimize etmekten kaçınmalı mıdır? Öyleyse, "en iyi" modeli aramayı ne zaman durduracağımızı nasıl bileceğiz?