Tren / geçerli / test setinden ortalama çıkarma ile ilgili soru


11

Ben veri önişleme yapmak ve sonra benim veriler üzerinde bir Convonets inşa edeceğim.

Sorum şu: 100 görüntülü toplam veri kümem var, 100 görüntünün her biri için ortalama hesaplıyorum ve sonra görüntülerin her birinden çıkartıyorum, sonra bunu tren ve doğrulama kümesine ayırdım ve aynısını yapıyorum belirli bir test setinde işlem yapmak için adımlar, ancak bu bağlantıya göre bunu yapmak için doğru bir yol gibi görünmüyor: http://cs231n.github.io/neural-networks-2/#datapre

" Ortak tuzak . Önişleme hakkında önemli bir nokta, önişleme istatistiklerinin (örn. Veri ortalaması) yalnızca eğitim verilerine hesaplanması ve daha sonra doğrulama / test verilerine uygulanması gerektiğidir. Örneğin, ortalamanın hesaplanması ve çıkarılması veri kümesinin tamamındaki her görüntü ve daha sonra verileri tren / val / test bölümlerine ayırmak bir hata olacaktır .. Bunun yerine, ortalama yalnızca eğitim verileri üzerinden hesaplanmalı ve daha sonra tüm bölümlerden (tren / val / test) eşit olarak çıkarılmalıdır. "

Yazarın ne dediğini tahmin ediyorum, her görüntüde ortalama hesaplamayın ve çıkarın, ancak toplam görüntü kümesinin (yani (image1 + ... + image100) / 100) ortalamasını hesaplayın ve ortalamayı çıkarın görüntünün her biri.

Anlayamıyorum kimse açıklayabilir mi? ve muhtemelen yaptığım şeyin neden yanlış olduğunu açıklar (eğer gerçekten yanlışsa).


Topluluğa hoş geldiniz. Lütfen cevabımı aşağıya bakın.
usεr11852

Yanıtlar:


6

Toplamda 100 görüntünüz olduğunu varsayalım; 90'ı eğitim verisi, 10'u test verisidir.

Yazarlar, örnek ortalama yı hesaplamak için 100 resim örneğinin tamamını kullanmanın yanlış olduğunu ileri sürmektedir . Çünkü bu durumda bilgi sızıntısına sahip olursunuz. "Örnek dışı" öğelerinizdeki bilgiler eğitim setinize taşınır. Özellikle tahmini için, 90 görüntü yerine 100 kullanırsanız, eğitim setinizin olması gerekenden daha bilgili bir ortama sahip olmasına izin verirsiniz. Sonuç olarak egzersiz hatanız olması gerekenden daha düşük olabilir.μ^μ^

Tahmini eğitim / doğrulama / test prosedürü boyunca yaygındır. Tüm verilerinizi ortalamak için aynı kullanılmalıdır. (Daha sonra bahsedeceğim çünkü bu görüntüyü ortalamak için her ayrı görüntünün ortalamasını kullandığınıza dair hafif bir izlenimim var.)μ^μ^


Cevabınız için teşekkürler, bu mantıklı. Ve evet, her görüntü için ortalamayı hesaplıyorum, bu yüzden tahmini aslında her bir görüntü yerine 90 eğitim görüntüsünün tamamı tarafından hesaplanmalıdır? Neden? Her bir görüntüyü 90 eğitim setinde ortalayamıyor muyum? μ^
Sam

1
tahmini bir görüntünün kendisi olmalıdır. Her birini ayrı ayrı ortalarsanız, yaptığınız merkezleme tüm örnekte genel bir eğilim olup olmadığını kontrol etmez. μ^
usεr11852

@ usεr11852 Daha bilgili olmak modelimize neden zarar verebilir? Bu, "örnek dışı yanıt değişkeni" bilgisinin hiçbir şekilde eğitimimize müdahale etmesine neden olmaz, değil mi? Peki tren hatası neden düşük olsun?
GeneX

1
Geçerli bilgiler asla "bir modele zarar vermez"; hangi modeli kullanacağınıza karar verdikten sonra (bazı yeniden örnekleme / tutma şemasına dayanarak) son modeli tüm veriler üzerinde eğiteceğiz . Bununla birlikte, eğitim veri kümesinin tamamını kullanarak tahmin edersek , bu ek bilgiler gerçekçi olmayan iyi bilgileri yansıtacaktır. Bu, test verileri hakkında beklenenden daha düşük test hatalarına yol açabilir, çünkü test verileri hakkında başka türlü eğitim sırasında kullanamayacağımız bir şey biliyoruz. ( Örnek : Fiziksel aktivite modeli geliştirdiğimizi μ^
varsayalım

... biraz şans eseri, tüm yaşlı insanlar test setine giriyor. Ortalama yaşımızı sadece eğitim setimizde hesaplarsak, tüm örneğimizinkinden daha düşük bir ortalama yaş elde edeceğiz. Bu açıkça önyargılı ortalama yaşı kullanmak , farklı yaşlara iyi genelleme Ayapmazsa A, muhtemelen modelin performansını bozacaktır. Tüm veri kümesindeki ortalama yaşı hesaplarsak, daha temsili bir ortalama yaş elde ederiz. Şimdi modelde bu tarafsız ortalama yaşı kullanırsak A, muhtemelen Afarklı yaşlara iyi genellememesine rağmen eskisinden daha iyi performans elde edeceğiz .)
usεr11852
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.