Bir dizi bağımsız gözlem verilen kestirim (ya da düz olan eşdeğer, MAP / üniform önce), bu tanımlar parametreler \ mathbf {θ} modeli dağılımı üretmek P_ {modeli} \ bu gözlemlerle en iyi eşleşen sol (\, \ cdot \,; \ mathbf {θ} \ right)O = { o ( 1 ) p m o d e l (
veya daha rahat
ve çok sınıflı derin sinir ağları için bir kayıp fonksiyonu tanımlamak için oynayabileceği role bakın; burada ağın eğitilebilir parametrelerine karşılık gelir (ör. ve gözlemler, \ mathbf {x} giriş aktivasyonlarının çiftleri ve , \ mathbf {o içindeki karşılık gelen doğru sınıf etiketleri y \ } ^ {(i)} = { },
Anlamadığım şey, bunun (vectorized) doğru çıktının "çapraz entropisi", ve ağın karşılık gelen çıktı aktivasyonları, eğitimi sırasında bir hata / zarar ölçülürken uygulamasında kullanılan . İlgili birkaç sorun var: a ( x ( i ) ; θ )H( o ( i ) ; θ )=- y ( i ) ⋅ l o g
"Olasılık olarak" aktivasyonlar
MLE ve çapraz entropi arasındaki ilişkiyi kurmanın adımlarından biri çıktı aktivasyonlarını "sanki" olasılıklar gibi kullanmaktır. Ama bana göre, ya da en azından olduğu belli değil.
Eğitim hatasını hesaplarken - özellikle buna "çapraz entropi kaybı" olarak adlandırılırken - (aktivasyonları 1'e normalleştirdikten sonra) 1 olarak varsayılır.
veya
böylece yazabiliriz
ve böylece
Ancak bu kesinlikle olasılığını (bir şey olduğu ölçüde) yaparsa, diğer aktivasyonlara herhangi bir kısıtlama getirmez.
Bu durumda gerçekten PMF olarak söylenebilir mi? Yapar orada birşey mi onlara "gibi" değil ihtimaller arasına (ve sadece )? a y ( i ) ( x ( i ) ; θ M L )
Sınıflandırmanın sınırlandırılması
MLE'nin çapraz entropi ile eşitlenmesinde yukarıdaki önemli adım, tamamen (tek etiketli) çok sınıflı bir öğrenme problemini karakterize eden nın tek-sıcak "yapısına dayanmaktadır . için başka herhangi bir yapı den e ulaşmayı imkansız hale getirecektir .y ( i ) (1) (3)
MLE ve çapraz entropi minimizasyonu denklemi nin "sıcak" olduğu durumlar ile mi sınırlı ?
Farklı eğitim ve tahmin olasılıkları
Tahmin sırasında, neredeyse her zaman
bu, güvenilir bir şekilde durum söz konusu olmadıkça, eğitim sırasında öğrenilen olasılıklardan farklı olan doğru tahmin olasılıkları ile sonuçlanır.
Bu hiç güvenilir değil mi? En azından yaklaşık olarak doğru mu? Veya etiket pozisyonundaki öğrenilmiş aktivasyon değerinin bu denklemini , öğrenilmiş aktivasyonların maksimum değerinin orada olma olasılığı ile doğrulayan başka bir argüman var mı?
Entropi ve bilgi teorisi
Yukarıdaki endişelerin ele alındığını ve aktivasyonların geçerli PMF'ler olduğunu (veya anlamlı bir şekilde bu şekilde ele alınabileceğini) varsayarsak, hesaplamasında çapraz entropinin oynadığı rolün sorunsuz olduğu açıktır. bunun entropi hakkında konuşmak için yararlı veya anlamlıdır bana neden , Shanon entropi için geçerlidir çünkü spesifik bir ağın eğitiminde kullanılmayan kodlama türü . a( x ( i ) ; θ M L )
Bilgi teorik entropisi maliyet fonksiyonunun yorumlanmasında, bir hesaplamak için (MLE'ye karşılık gelen) basit bir araç (çapraz entropi formunda) sağlamak yerine hangi rolü oynar?
softmax_cross_entropy_with_logits
: ve dolayısıyla ). Hayır? θ M L ( O )