Hiperparametreleri ayarlarken doğrulama verileri üzerindeki model performansını değerlendirirsem doğrulama verileriyle ilgili bilgiler neden sızdırılıyor?


9

François Chollet'in Python ile Derin Öğrenmesi'nde şöyle diyor:

Sonuç olarak, modelin yapılandırmasını doğrulama setindeki performansına göre ayarlamak, modeliniz hiçbir zaman doğrudan doğrudan eğitilmemiş olsa bile, doğrulama setine aşırı takılmasına neden olabilir.

Bu fenomenin merkezinde bilgi sızıntısı kavramı vardır. Modelinizin doğrulama parametresindeki performansına göre bir hiperparametreyi her ayarladığınızda, doğrulama verileri hakkında bazı bilgiler modele sızar . Bunu yalnızca bir kez yaparsanız, bir parametre için, çok az bilgi biti sızar ve doğrulama setiniz modeli değerlendirmek için güvenilir kalır. Ancak bunu birçok kez tekrarlarsanız - bir deneme yapmak, doğrulama kümesini değerlendirmek ve sonuç olarak modelinizi değiştirmek - modelde ayarlanan doğrulama hakkında giderek artan miktarda bilgi sızdırırsınız.

Hiperparametreleri ayarlarken doğrulama verileri üzerindeki model performansını değerlendirirsem doğrulama verileriyle ilgili bilgiler neden sızdırılıyor?


BTW: sadece bunu ne sıklıkta yaptığınıza bağlı değil, aynı zamanda optimizasyon sırasında performans değerlendirmenizin (hedef fonksiyonel) rastgele belirsizliğine de bağlıdır.
Sb 28,18

1
@cbeleites Üzgünüm, bu ne anlama geliyor?
fabiomaia

1
optimizasyon için kullanılan değerleme sonuçları mükemmel olsaydı (yani ne sistematik ne de rastgele hata), optimizasyon gerçekten en uygun modeli seçerdi, herhangi bir fazla sığmaya sahip olmazsınız ve seçilen modelin başka bir bağımsız mükemmel doğrulaması tam olarak aynı sonucu verirdi. Optimizasyon, optimizasyon sırasında değiştirdiğiniz faktörlerle değişmediği sürece sistematik hatayı (sapma) bile tolere edebilir. Şimdi performans tahmininde rastgele bir hata (varyans belirsizliği) varsa ne olacağını düşünün: gerçek performans "manzarası" nın üstünde gürültü alırsınız.
SX ile mutsuz cbeleites

1
Bu gürültü bir noktaya (hiperparametre ayarları) gerçekte olduğundan daha iyi görünebilir, bu hiperparametre ayarları yanlışlıkla (ve hatalı olarak) seçilebilir. Bunun gerçekleşme olasılığı, a) bu tür performans değerlerine kaç kez baktığınız ve b) gerçek performansın üstünde (gerçek performans artışına kıyasla) sahip olduğunuz gürültü miktarı ile artar. Bu, doğrulama sonuçlarının tekrar kullanılmasının neden veri sızıntısı olduğu değil, ilgili aşırı donmanın nasıl gerçekleştiği ve bir sorunun ne kadar ciddi olması gerektiği ile ilgili değildir - bu yüzden sadece bir yorum.
SB

Yanıtlar:


11

Hiper parametre seçimleri yapmak için doğrulama verilerini kullandığınız için bilgi sızdırılıyor. Temel olarak karmaşık bir optimizasyon sorunu oluşturuyorsunuz: hiper parametreler üzerindeki kaybı en aza indirinϕ bu hiper parametrelerin parametreleri olan bir nöral ağ modelini düzenlediği validasyon verilerine göre değerlendirildiği gibi θ belirli bir eğitim seti kullanılarak eğitilmiş.

Her ne kadar parametreler θ eğitim verileri, hiper parametreler tarafından doğrudan bilgilendirilir ϕdoğrulama verilerine göre seçilir. Dahası, çünkü hiper parametrelerϕ dolaylı olarak etki θ, doğrulama verilerinden alınan bilgiler dolaylı olarak seçtiğiniz modeli etkiler.


1
Geçmişe bakıldığında, bu oldukça açıktı. Peki "Bunu sadece bir kez yaparsanız, bir parametre için, o zaman çok az bilgi sızıntısı olur" ne demektir? Orada ne kastedilmektedir ve "bunu birçok kez tekrarladığınız" diğer durumla nasıl zıttır?
fabiomaia

4
Doğrulama verilerine karşı performansı ölçerek yalnızca 2 hiper parametre yapılandırmasını denediğinizi ve en iyi modeli seçtiğinizi varsayalım. Kör şansla, doğrulama verilerinin üzerine geçme şansınız daha düşüktür. Aksine, varsayalım ki210hiper-parametre konfigürasyonları ve doğrulama verilerine göre en iyi modeli seçin. Tamamen kör şansla, doğrulama verilerinin yerine geçmeyi başarmış olmanızın daha büyük bir riski vardır. Ayrıca bakınız: "çatal yollarının bahçesi" ve sahte etkilerin keşfi.
Sycorax: Reinstate Monica

1
Bu çok mantıklı. Orijinal kitaptaki ifadeler iyi değildi. Teşekkür ederim!
fabiomaia

Kitaptaki ifadeler mükemmel.
Michael M

2
Size "mükemmel" gibi gelebilir, çünkü muhtemelen yazarın neden bahsettiğini biliyorsunuzdur. @Sycorax'ın yorumu bana çok daha açık ve yardımcı oldu.
fabiomaia
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.