İstatistiksel öğrenme teorisinde, bir test setine aşırı uyum sağlama sorunu yok mu?


16

MNIST veri kümesini sınıflandırmayla ilgili sorunu ele alalım.

Göre Yann LeCun en MNIST bir Web 'Ciresan ve diğ.' Evrimsel Sinir Ağı kullanılarak MNIST test setinde% 0.23 hata oranı elde edildi.

olarak ayarlanmış MNIST eğitimini Dtrain, olarak ayarlanmış MNIST testini Dtest, h 1Dtrain olarak kullanarak elde ettikleri son hipotezi ve h_ kullanarak MNIST Test setindeki hata oranını gösterelim. , .h1 E t e s t ( h 1 ) = 0.0023h1Etest(h1)=0.0023

Bunların bakış açısı içinde, bu yana rastgele bağımsız olarak giriş boşluğundan test seti örneklenir , gittikleri son hipotez bu dışı örnek hata performansını ısrar edilebilir olduğu Hoeffding Eşitsizliği burada. h 1 E o u t ( h 1 ) P [ | E o u t ( h 1 ) - E t e s t ( h 1 ) | < ϵ | ] 1 - 2 E 2 ε 2 N t l e s t , N t l e s t = |Dtesth1Eout(h1)

P[|Eout(h1)Etest(h1)|<ϵ|]12e2ϵ2Ntest

Ntest=|Dtest|

Başka bir deyişle, en azından olasılık , 1δ

Eout(h1)Etest(h1)+12Ntestln2δ

Başka bir bakış açısı düşünelim. Bazı kişilerin MNIST test setini iyi sınıflandırmak istediğini varsayalım. Bu yüzden önce Yann LeCun'un MNIST Web Sayfasına baktı ve 8 farklı model kullanan başkaları tarafından elde edilen aşağıdaki sonuçları buldu,

MNIST sınıflandırma sonuçları

8 model arasından MNIST test setinde en iyi performansı gösteren modelini seçti .g

Onun için, öğrenme işlemi hipotez çekme test seti ile en iyi performansı D t l e s t bir hipotez kümesinden lH t r bir i , n , e d = { h 1 , h 2 , . . , h 8 } .gDtestHtrained={h1,h2,..,h8}

Bu nedenle, test seti 'deki hata bu öğrenme süreci için' örnek içi 'hatasıdır, bu nedenle sonlu hipotez setleri için bağlı VC'yi aşağıdaki eşitsizlik gibi uygulayabilir. P [ | E o u t ( g ) - E i n ( g ) | < Ε ] 1 - 2 | H t r a i n e d | e 2 ϵ 2 NEtest(g)

P[|Eout(g)Ein(g)|<ϵ]12|Htrained|e2ϵ2Ntest

1δ

Eout(g)Etest(g)+12Ntestln2|Htrained|δ

Bu sonuç, modeli birkaç model arasında en iyi performansı seçersek, test setinde aşırı uyum olabileceğini gösterir.

h1Etest(h1)=0.0023h1Dtesth1

Eout(h1)Etest(h1)+12Ntestln2|Htrained|δ

P[Eout(h1)Etest(h1)+12Ntestln2δ]1δ
P[Eout(h1)Etest(h1)+12Ntestln2|Htrained|δ]1δ

Howerver, bu iki eşitsizliğin uyumsuz olduğu açıktır.

Nerede yanlış yapıyorum? Hangisi doğru, hangisi yanlış?

İkincisi yanlışsa, bu durumda sonlu hipotez kümeleri için VC'ye bağlı uygulamanın doğru yolu nedir?

Yanıtlar:


1

g=h1gh1

gHtrained={h1,h2,...,h8}Dtest

gDtestDtestg(Dtest)=h1g(Dtest) could take any value in Htrained. On the other hand h1 is just one value in Htrained.

For the other question:

If the latter is wrong, what is the right way to apply the VC bound for finite hypothesis sets in this case?

Just don't replace g by h1, you will get the correct bound (for g, of course) and it will have no conflict with the other bound (which is for h1).

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.