Bir 0-1 kayıp işlevi neden kullanılamaz?


12

Ian Goodfellow'un Derin Öğrenme kitabında,

Bazen, gerçekten önem verdiğimiz kayıp fonksiyonu (örneğin, sınıflandırma hatası) verimli bir şekilde optimize edilebilen bir işlev değildir. Örneğin, beklenen 0-1 kaybını tam olarak en aza indirmek, doğrusal bir sınıflandırıcı için bile tipik olarak inatçıdır (giriş boyutunda üstel). Bu gibi durumlarda, tipik olarak vekil görevi gören ancak avantajları olan bir vekil kaybı fonksiyonu optimize edilir.

0-1 kaybı neden inatçı değildir veya giriş boyutlarında nasıl üsteldir?

Yanıtlar:


18

0-1 kayıp işlevi dışbükey değildir ve süreksizdir, bu nedenle (alt) gradyan yöntemleri uygulanamaz. Doğrusal bir ayırıcı ile ikili sınıflandırma için, bu kayıp işlevi gösterge fonksiyonunun ortalama değerini en aza indiren bulmak olarak formüle edilebilir. tüm örnekleri üzerinde . Bu, her bir çifti için iki olası değerler vardır çünkü olarak, orada, girdilerde üstel denetlemek mümkün konfigürasyonlarβ1(yiβxi0)i2nntoplam örnek puan. Bunun NP-sert olduğu bilinmektedir. Kayıp fonksiyonunuzun mevcut değerini bilmek, konveks veya sürekli fonksiyonlar için gradyan yöntemlerinin mevcut olup olmadığını türetebileceğiniz için, mevcut çözümünüzü iyileştirmek için nasıl değiştirmeniz gerektiği konusunda herhangi bir ipucu sağlamaz.


1
Çok iyi bir nokta - pratikte rastgele arama veya kapsamlı arama, böyle bir kayıp fonksiyonunun minimumunu bulmak için kullanılabilecek tek yöntemdir, değil mi?
DeltaIV

2
^^ ya da evrimsel / sürüye dayalı zeka yöntemleri belki?
samra irshad

@samrairshad Evet, aslında 0-1 kaybı evrimsel yöntemlerde görülmesi nadir değildir.
John Doucette

Rastgele aramadan karmaşık evrim / sürü algoritmalarına geçmeden önce çapraz entropi yöntemine (CEM) bakardım.
maxy

1

Sınıflandırma hatası aslında bazen izlenebilir. Bu makalede gösterildiği gibi Nelder-Mead yöntemini kullanarak tam olarak olmasa da verimli bir şekilde optimize edilebilir:

https://www.computer.org/csdl/trans/tp/1994/04/i0420-abs.html

"Boyut küçültme, çok boyutlu vektörleri düşük boyutlu bir uzaya dönüştürme işlemidir. Örüntü tanımada, genellikle bu görevin önemli bir sınıflandırma bilgisi kaybı olmadan gerçekleştirilmesi istenir. Bayes hatası bu amaç için ideal bir kriterdir, ancak, matematiksel tedavi için kötü bir şekilde zor olduğu bilinmektedir, bu nedenle uygulamada yetersiz ölçütler kullanılmıştır Bayes hatasının tahminine dayanarak halihazırda kullanılmakta olan kriterlerden daha yakın olan alternatif bir kriter öneriyoruz. Bu ölçüt temelinde doğrusal boyut küçültme için bir algoritma tasarlanmış ve uygulanmıştır. Deneyler geleneksel algoritmalara kıyasla üstün performansını göstermektedir. "

Burada bahsedilen Bayes hatası temelde 0-1 kaybıdır.

Bu çalışma doğrusal boyut küçültme bağlamında yapılmıştır. Derin öğrenme ağlarını eğitmenin ne kadar etkili olacağını bilmiyorum. Ama asıl mesele şu sorunun cevabı: 0-1 kaybı evrensel olarak inatçı değildir. En azından bazı modellerde nispeten iyi optimize edilebilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.