Yapay sinir ağlarında çapraz entropi hata fonksiyonu

115

Olarak ML başlayanlar için MNIST bunlar çapraz entropi tanımlar

H_{y^{'}} (y) := - \sum_{i} y_{i}^{'} \log (y_{i})

$H_{y'} (y) := - \sum_{i} y_{i}' \log (y_i)$

$y_i$ , sınıfı için öngörülen olasılık değeridir ve , bu sınıf için gerçek olasılıktır. $i$ $y_i'$

Soru 1

( ) 0 olması sorun değil mi? Bu elbette çok kötü bir sınıflandırıcıya sahip olduğumuz anlamına gelir. Ancak veri kümemizdeki bir hatayı, örneğin "açık" olarak düşünün . Sadece çarpışır mıydı? Seçtiğimiz model (sonunda softmax aktivasyonu) temelde doğru sınıf için 0 olasılık vermez mi? $y_i$ $\log(y_i)$ 13

soru 2

Çapraz entropinin tanımlandığını öğrendim.

H_{y^{'}} (y) := - \sum_{i} (y_{i}^{'} \log (y_{i}) + (1 - y_{i}^{'}) \log (1 - y_{i}))

$H_{y'}(y) := - \sum_{i} ({y_i' \log(y_i) + (1-y_i') \log (1-y_i)})$

Ne doğru? Her iki sürüm için de ders kitabı referansınız var mı? Bu işlevler özelliklerinde nasıl farklılık gösterir (sinir ağları için hata işlevleri olarak)?

machine-learning tensorflow

— Martin Thoma
kaynak

Ayrıca bakınız: stats.stackexchange.com/questions/80967/…

— Piotr Migdal

Ayrıca bakınız: Kullback-Leibler Divergence Blog yazısı.

— Piotr Migdal

101

Çapraz entropiyi yorumlamanın bir yolu, onu bir modeli altında, verileri için (eksi) log olasılığı olarak . $y_i'$ $y_i$

Yani, sizin için tahmin (aka "hipotezi") bazı sabit modeli, sahip olduğunu varsayalım sınıfları kendi varsayımsal olay olasılıkları . Şimdi (gerçekte) sınıf , sınıf , sınıf , vb. Örneklerini gözlemlediğinizi varsayalım . Modelinize göre, bu olma olasılığı şudur: Logaritmayı alıp işaretini değiştirmek: $n$ $\{1,2,\dots, n\}$ $y_1, y_2,\dots, y_n$ $k_1$ $1$ $k_2$ $2$ $k_n$ $n$

P [d a t a | m o d e l] := y_{1}^{k_{1}} y_{2}^{k_{2}} \dots y_{n}^{k_{n}} .

$P[data|model] := y_1^{k_1}y_2^{k_2}\dots y_n^{k_n}.$

- \log P [d a t a | m o d e l] = - k_{1} \log y_{1} - k_{2} \log y_{2} - \dots - k_{n} \log y_{n} = - \sum_{i} k_{i} \log y_{i}

$-\log P[data|model] = -k_1\log y_1 -k_2\log y_2 - \dots -k_n\log y_n = -\sum_i k_i \log y_i$

Şimdi sağdaki toplamı gözlemlerin sayısına ve ampirik olasılıkları olarak , çapraz entropi elde edersiniz:

N = k_{1} + k_{2} + \dots + k_{n}

$N = k_1+k_2+\dots+k_n$

y_{i}^{'} = k_{i} / N

$y_i'=k_i/N$

- \frac{1}{N} \log P [d a t a | m o d e l] = - \frac{1}{N} \sum_{i} k_{i} \log y_{i} = - \sum_{i} y_{i}^{'} \log y_{i} =: H (y^{'}, y)

$-\frac{1}{N} \log P[data|model] = -\frac{1}{N}\sum_i k_i \log y_i = -\sum_i y_i'\log y_i =: H(y', y)$

Ayrıca, bir model verilen veri kümesinin log olasılığı "kodlama uzunluğu" nun bir ölçüsü olarak yorumlanabilir - kodlama şemanız hipotezinize dayanıyorsa bu bilgiyi kodlamak için harcayacağınız bit sayısı.

Bu, olasılığına sahip olan bağımsız bir olayın en azından kodlamasını gerektirmesi (verimli kodlama varsayılır) gerektirdiği ve sonuç olarak kelimenin tam anlamıyla kodlamanın beklenen uzunluğu olduğu eder. Olaylar için kodlama uzunluklarının "varsayımsal" dağılım kullanılarak hesaplandığı ve beklenti gerçek olanın üzerinden alındığı zaman. $y_i$ $-\log_2 y_i$

- \sum_{i} y_{i}^{'} \log_{2} y_{i},

$-\sum_i y_i'\log_2 y_i,$

Son olarak, "beklenen kodlama uzunluğu ölçüsü" demek yerine, gayri resmi "sürpriz ölçüsü" terimini kullanmayı seviyorum. Bir dağıtımdan beklenen bir olayı kodlamak için çok fazla bit ihtiyacınız varsa, dağıtım sizin için "gerçekten şaşırtıcı" olur.

Bu sezgiler göz önüne alınarak, sorularınızın cevapları şu şekilde görülebilir:

Soru 1 . Evet. Karşılık gelen aynı anda sıfır $y_i'$ bu bir problemdir . Modelinizin bazı sınıfların sıfır olma ihtimaline sahip olduğuna inandığı duruma karşılık gelir, ancak sınıf gerçekte ortaya çıkar. Sonuç olarak, modelinizin “sürprizi” sonsuz derecede harika: modeliniz bu olayı hesaba katmadı ve şimdi kodlamak için sonsuz sayıda bit gerektiriyor. Bu yüzden çapraz entropi olarak sonsuzluğa kavuşuyorsun.

Bu sorunu önlemek için, modelinizin gerçekleşmesi imkansız olan bir şeyle ilgili döküntü varsayımları yapmadığından emin olmanız gerekir. Gerçekte, insanlar sigmoid veya "softmax" işlevlerini, her seçenek için en azından bir şans bırakacak kadar muhafazakar olan hipotez modelleri olarak kullanırlar.

Eğer başka bir hipotez modeli kullanıyorsanız, onu sıfırlamak zorunda kalmayacak şekilde hipotez oluşturmayacak şekilde (aka "pürüzsüz") düzenli hale getirmek size kalmıştır .
Soru 2 . Bu formülde, genellikle veya olarak kabul , modelin karşılık gelen girdi için olasılık hipotezidir. Yakından bakarsanız, bunun ikilik veriler için sadece bir olduğunu göreceksiniz, bu cevabın ikinci denkleminin bir eşdeğeri. $y_i'$ $0$ $1$ $y_i$ $-\log P[data|model]$

Bu nedenle, kesinlikle konuşursak, hala bir günlük olasılık olmasına rağmen, bu sözdizimsel olarak çapraz entropiye eşdeğer değildir. Bazıları, çapraz entropi gibi bir ifadeye atıfta , veri kümesindeki bireysel noktalar için ikili çapraz entropiler üzerinden bir toplam olduğu anlamına gelir : burada ve , karşılık gelen ikili dağılımlar ve .
$\sum_{i} H (y_{i}^{'}, y_{i}),$ $\sum_i H(y_i', y_i),$ $y_i'$ $y_i$ $(y_i', 1-y_i')$ $(y_i, 1-y_i)$

— KT.
kaynak

1

tanımladıkları bir kaynak bulabilir misiniz ? Burada mevcut sınıf etiketi için tek bir sıcak dağıtım olarak tanımlarlar. Fark ne?

y' i = \frac{k i}{N}

$y′i=\frac{ki}{N}$

— Lenar Hoyt

1

MNIST TensorFlow eğitiminde, onu bir sıcak vektör olarak da tanımlarlar.

— Lenar Hoyt

@ LenarHoyt , bir sıcaklığa eşit olacaktır. Bir ateşli maddeyi, deneysel (gerçek) kategorik olasılığına dayanarak bir maddenin kodlaması olarak düşünebilirsiniz.

N = 1

$N=1$

k_{i} / N

$k_i/N$

— THN,

'bağımsız olay ... kodlamayı gerektiriyor' - bu kısmı açıklar mısınız?

— Alex,

@Alex Düzgün bir şekilde anlaşılması için daha uzun bir açıklama yapılması gerekebilir - Shannon-Fano kodları ve optimum kodlamanın Shannon entropi denklemi ile ilişkisi. Olayları kısmak için, eğer bir olayın olasılığı 1/2 ise, en iyi bahis, tek bir bit kullanarak kodlamaktır. Eğer 1/4 olasılık varsa, onu kodlamak için 2 bit harcamalısınız vs. Shannon optimal uzunluğuna yaklaşın.

— KT.

22

Kullanmakta olduğunuz ilk logloss formülü, alt diziliminin bir örnekte farklı sınıfları numaralandırdığı çoklu sınıf günlük kaybı içindir . Formül , her örnekte tek bir nin 1 olduğunu ve geri kalanının hepsinin 0 olduğunu varsayar . $i$ $y_i'$

Bu, formülün yalnızca hedef sınıftaki hatayı yakaladığı anlamına gelir. "Yanlış pozitif" olarak kabul edebileceğiniz herhangi bir hata fikrini atar ve öngörülen olasılıkların, gerçek sınıfın öngörülen olasılıkları dışında nasıl dağıldığını önemsemez.

Başka bir varsayım, her örneğin tahminleri için . Softmax katmanı bunu otomatik olarak yapar - farklı bir şey kullanırsanız, çıktıları bu kısıtlamayı karşılamak için ölçeklendirmeniz gerekecektir. $\sum_i y_i = 1$

Soru 1

( ) 0 olması problem değil mi? $y_i$ $log(y_i)$

Evet, bu bir sorun olabilir, ancak genellikle pratik değildir. Rastgele başlatılmış bir softmax katmanının 0herhangi bir sınıfta kesin bir sonuç vermesi son derece olası değildir . Ancak bu mümkün, buna izin vermeye değer. İlk olarak, herhangi bir için değerlendirmeyin , çünkü negatif sınıflar her zaman hataya 0 katkıda bulunur. İkincisi, pratik kodda, değeri sayısal stabilite gibi bir değerle sınırlayabilirsiniz - çoğu durumda gerekli değildir, ancak bu mantıklı bir savunma programlamasıdır. $log(y_i)$ $y_i'=0$ log( max( y_predict, 1e-15 ) )

soru 2

Çapraz entropinin $H_{y'}(y) := - \sum_{i} ({y_i' \log(y_i) + (1-y_i') \log (1-y_i)})$

Bu formülasyon genellikle iki sınıfı öngören bir çıktısı olan bir ağ için kullanılır (genellikle 1 için pozitif sınıf üyeliği ve 0 çıkış için negatif). Bu durumda yalnızca bir değere sahip olabilir - Buraya toplamı kaybedebilir . $i$ $i$

Eğer böyle bir ağı iki karşıt çıktısı olacak şekilde değiştirir ve softmax artı ilk logloss tanımını kullanırsanız, bunun aslında aynı hata ölçümü olduğunu ancak iki sınıf için hata ölçüsünü tek bir çıktıya katladığını görebilirsiniz.

Üyeliğini tahmin etmek için birden fazla sınıf varsa ve sınıflar münhasır değilse, örneğin bir örnek aynı anda sınıfların herhangi biri veya tümü olabilirse, bu ikinci formülasyonu kullanmanız gerekecektir. Durum olmayan rakam tanıma için (yazılı bir rakam sadece bir "gerçek" sınıfa sahip olmalıdır)

— Neil Slater
kaynak

İkinci formülün sunumunda bazı belirsizlikler mevcuttur Not - bu teoride sadece bir sınıf üstlenebileceğini ve daha sonra örneklerini numaralandırmak olacaktır.

i

$i$

— Neil Slater,

Üzgünüm, bilmek istediğimden farklı bir şey sordum. bir sorun görmüyorum , ancak nedeniyle . Lütfen cevabınızı buna göre ayarlayabilir misiniz?

\log (y_{i}) = 0

$\log(y_i) = 0$

y_{i} = 0

$y_i = 0$

\log (y_{i})

$\log(y_i)$

— Martin Thoma

@NeilSlater, sınıflar birbirini dışlayan değilse, her giriş için çıktı vektörü birden fazla 1 içerebilir, ikinci formülü kullanmalı mıyız?

— Medya

1

@Media: Pek değil. Yine de hiyerarşik sınıflandırma gibi şeylere bakmak istiyorsunuz. . .

— Neil Slater,

1

@Javi: OP'ın soruda zemin gerçektir, dolayısıyla genellikle 0 veya 1 Öyle SoftMax çıkıştır. Ancak , kayan nokta yuvarlama nedeniyle pratikte sıfıra . Bu aslında olur.

y_{i}^{'}

$y'_i$

y_{i}

$y_i$

y_{i}

$y_i$

— Neil Slater

11

göz önüne alındığında , makine öğrenim yönteminizi , mümkün olduğunca yakın olması için ı optimize etmek istiyorsunuz . $y_{true}$ $y_{predict}$ $y_{true}$

İlk soru:

Cevabın üstünde ilk formülünüzün, bilgi teorisinde tanımlanan çapraz entropinin arka planı açıklanmıştır.

Bilgi teorisi dışındaki bir görüşe göre:

kendinizi ilk formülün yanlış pozitiflikten cezalandırılmadığını (gerçek yanlıştır ancak modelinizin doğru olduğunu tahmin etmesini), ikincisinin yanlış pozitifliği cezalandırdığını görebilirsiniz. Bu nedenle, ilk formülün veya saniyenin seçimi, ölçümlerinizi etkileyecektir (diğer bir deyişle, modelinizi değerlendirmek için hangi istatistik miktarı kullanmak istiyorsunuz?).

Layman kelimesinde:

Neredeyse tüm iyi insanları arkadaşınız olarak kabul etmek, ancak bazı kötü insanları kabul etmek isteyen arkadaşınız olmak istiyorsanız, ölçüt için ilk formülü kullanın.

Bazı kötü insanları arkadaşın olarak kabul etmeyi kendin cezalandırmak istiyorsan, ama aynı zamanda iyi insanların kabul etme oranın ilk koşuldan düşük olabilir, o zaman ikinci formülü kullan.

Bununla birlikte, çoğumuzun kritik olduğunu ve ikincisini seçmek istediğimizi düşünüyorum (birçok ML paketi çapraz entropinin ne olduğunu varsayar).

İkinci soru:

Her sınıf için örnek başına entropi:

- y_{t r u e} \log (y_{p r e d i c t})

$-y_{true}\log{(y_{predict})}$

Bütün sınıflar için bütün sınıflar için entropi:

\sum_{i}^{n} \sum_{k}^{K} - y_{t r u e}^{(k)} \log (y_{p r e d i c t}^{(k)})

$\sum_i^n \sum_k^K -y_{true}^{(k)}\log{(y_{predict}^{(k)})}$

Böylece, sadece iki sınıf olduğunda (K = 2), ikinci formüle sahip olacaksın.

— ArtificiallyIntelligence
kaynak

5

Bu konular, öğretici softmax kullanımı tarafından ele alınmaktadır.

1) softmax'in sıfır olmayan bir çıktı garanti ettiğini doğru söylüyorsunuz, çünkü bu girdiyi açıklıyor. Bu garantiyi vermeyen aktiviteler için (relu gibi), bu sorunu önlemek için her çıktıya çok küçük bir pozitif terim eklemek kolaydır.

2) gelince, açıkça aynı değiller, ama ben verdikleri softmax formülasyonu konuyla ilgileniyor. Softmax kullanmadıysanız, bu, herhangi bir girdi için her sınıf için 1 olduğunu tahmin eden büyük önyargı terimlerini öğrenmenize neden olur. Ancak softmax'ı tüm sınıflar arasında normalleştirdikleri için, doğru sınıfın çıktısını maksimize etmenin tek yolu, yanlış sınıflara göre daha büyük olması.

— jamesmf
kaynak

"softmax'ın sıfır olmayan bir çıktıyı garanti ettiğini haklısın" - teorik olarak bunun böyle olduğunu biliyorum. Gerçekte, (sayısal sorunlar nedeniyle) bunun 0 olacağı olabilir mi?

— Martin Thoma

İyi soru. Girişinizin floatınızın hassasiyeti için çok küçük olması durumunda üs üs işlevinin 0.0 çıktısının mükemmel bir şekilde mümkün olduğunu varsayıyorum. Ancak, çoğu uygulamanın sıfır olmayan girişi garanti etmek için küçük pozitif terim eklediğini tahmin ediyorum.

— jamesmf

0

( ) 0 olması sorun değil mi? $y_i$ $\log(y_i)$

Evet, çünkü tanımsızdır, fakat kullanmaktan kaçınılmalıdır . $\log(0)$ $\log(y_i + \epsilon)$

Ne doğru?
(a) veya (b) ? $H_{y'} (y) := - \sum_{i} y_{i}' \log (y_i)$
$H_{y'}(y) := - \sum_{i} ({y_i' \log(y_i) + (1-y_i') \log(1-y_i)})$

(a) çok sınıflı tahmin için doğrudur (gerçekte çift toplamdır), (b) iki sınıflı tahmin için (a) ile aynıdır. Her ikisi de çapraz entropidir.

Örnek:

Her eğitim verileri varsayalım etiketi vardır ve model tahmin . $x_i$ $c_i' \in \{0, 1\}$ $c_i \in [0, 1]$

5 veri noktası için, gerçek etiketi ve model tahmini : $c_i'$ $c_i$

$(c_i', c_i)=\{(0, 0.1), (0, 0.4), (0, 0.8), (1, 0.8), (1, 0.2)\}$ (1),

Vektörleri tanımlar ve olarak $y_i'$ $y_i$

$y_{ik}':=1$ , ise ve , $c_i'=k$ $:=0$
$y_{ik}:=p(k|x_i)$ , model tarafından tahmin edilen sınıfına ait olasılığıdır . $x_i$ $k$

Örnek (1) notasyonu dönüşür: $(y_i', y_i)$

$(y_i', y_i)=\{([1, 0], [0.9, 0.1]),$ $([1, 0], [0.6, 0.4]),$ $([1, 0], [0.2, 0.8]),$ $([0, 1], [0.2, 0.8]),$ $([0, 1], [0.8, 0.2])\}$ ,

(A) ve (b) nin her ikisi de şöyle hesaplanır:

$H_{y'}(y)=-1/5([log(0.9)+log(0.6) + log(0.2)]_{c_i=0} + [log(0.8) + log(0.2)]_{c_i=1}) = 0.352$

derivasyon:

Birden sınıflar vardır varsayalım için . Eğitim noktası için , , eşdeğerdir; ki bu, pozisyonunda 1 ve diğer yerlerde 0'dır. Ne zaman , biz modelin çıkış istediğiniz Dolayısıyla 1'e yakın olmak, kaybı olarak tanımlanabilir , . Tüm sınıflardaki kayıplar aşağıdaki gibi birleştirilebilir: $1$ $K$
$(x_i, c_i')$ $c_i' = k$ $y_i'=[0,..,1,0,..]$ $k^{th}$ $y_{ik}'=1$ $y_{ik}=p(k|x_i)$ $(x_i, k)$ $-log(y_{ik})$ $y_{ik} \rightarrow 1 \Rightarrow -log(y_{ik}) \rightarrow 0$

$L(y_i', y_i) = -\sum_{k=1}^{K}y_{ik}'log(y_{ik})$ .

Tüm , ve diğer tüm sınıfları kaybı olarak devre dışı , örneğin gerçek etiket yani , kayıp olur be: $y_{ik}' = 1$ $k' \neq k$ $0log(y_{ik'})=0$ $y_{im}'=1$

$L(y_i', y_i)=-log(y_{im})$ .

Tüm eğitim noktalarındaki son formül:

$H_{y'}(y)=-\sum_{(x_i, y_i')}\sum_{k=1}^{K}y_{ik}'log(y_{ik})$ .

İkili sınıflandırma için, (gerçek etiketler) var ve (model tahminleri), bu nedenle (a) şu şekilde yeniden yazılabilir: $y_{i0}' = 1 - y_{i1}'$ $y_{i0} = 1 - y_{i1}$

$\begin{align*} H_{y'}(y)&=-\sum_{(x_i, y_i')}y_{i1}'log(y_{i1})+y_{i0}'log(y_{i0})\\ &=-\sum_{(x_i, y_i')}y_{i1}'log(y_{i1})+(1-y_{i1}')log(1-y_{i1}) \end{align*}$

(b) ile aynıdır.

Sınıflar arası çapraz entropi (a) (bir toplama)

Sınıflar arası çapraz entropi (a):

$H_{y'}(y)=-\sum_{k=1}^{K}y_{k}'log(y_{k})$ ,

Bu sürüm sınıflandırma görevi için kullanılamaz. Önceki örnekteki verileri tekrar kullanalım:

$(c_i', c_i)=\{(0, 0.1), (0, 0.4), (0, 0.8), (1, 0.8), (1, 0.2)\}$

Ampirik sınıf olasılıkları: ve , $y'_0 = 3/5 = 0.6$ $y'_1 = 0.4$

Modele göre tahmin edilen sınıf olasılıkları: ve $y_0 = 3/5 = 0.6$ $y_1 = 0.4$

(a) şu şekilde hesaplanmaktadır: . $-y'_0logy_0 - y'_1logy_1 = - 0.6log(0.6) -0.4log(0.4) = 0.292$

İki veri noktası ve sınıflandırılmıştır ancak ve doğru tahmin edilmektedir! $(0, 0.8)$ $(1, 0.2)$ $y'_0$ $y'_1$

5 noktanın tümü doğru olarak sınıflandırıldığında: ,
$(c_i', c_i)=\{(0, 0.1), (0, 0.4), (0, \color{blue}{0.2}), (1, 0.8), (1, \color{blue}{0.8})\}$

(a) yine aynı kalır, çünkü , olarak tekrar tahmin edilir . $y'_0$ $y_0=3/5$

— Esmailian
kaynak