Çapraz entropi formülü iki dağılımları, alır , doğru dağılım ve kesikli değişken üzerinden tanımlanan, tahmin edilen dağılımı, ve verilirp(x)q(x)x
H(p,q)=−∑∀xp(x)log(q(x))
Bir sinir ağı için, hesaplama aşağıdakilerden bağımsızdır:
Ne tür bir katman kullanıldı.
Ne tür bir aktivasyon kullanıldı - birçok aktivasyon hesaplamaya uygun olmayacak olmasına rağmen, çıktıları olasılık olarak yorumlanamaz (yani, çıktıları negatif, 1'den büyük veya 1'e eşit değil). Softmax, genellikle çok sınıflı sınıflandırma için kullanılır, çünkü iyi işlenmiş bir olasılık dağılım fonksiyonunu garanti eder.
Bir sinir ağı için, genellikle 'nin temel doğruluk vektörü ve (veya son katman çıktısından doğrudan alınan başka bir değerin) olduğu bir formda yazılmış olan denklemi göreceksiniz. tahmin. Tek bir örnek için, şuna benzer:yyy^
L=−y⋅log(y^)
Burada , vektör nokta ürünüdür.⋅
Örnek temel gerçeğiniz tüm olasılıkları ilk değere verir ve diğer değerler sıfırdır, bu yüzden onları görmezden gelebiliriz ve tahminlerinizden eşleşen terimi kullanabiliriz:yyy^
L=−(1×log(0.1)+0×log(0.5)+...)
L=−log(0.1)≈2.303
Yorumlardan önemli bir nokta
Demek ki, kayıp olursa olsun tahmin ise aynı olacaktır ya da ?[0.1,0.5,0.1,0.1,0.2][0.1,0.6,0.1,0.1,0.1]
Evet, bu çok sınıflı logloss'un temel bir özelliğidir, sadece doğru sınıfların olasılıklarını ödüllendirir / cezalandırır. Değer, kalan olasılığın yanlış sınıflar arasında nasıl bölündüğünden bağımsızdır.
Bu denklemi, tüm örneklerde ortalama olarak bir maliyet işlevi olarak göreceksiniz . Açıklamalara her zaman kesinlikle uyulmamaktadır, ancak genellikle bir kayıp fonksiyonu daha düşük seviyedir ve tek bir vakanın veya bileşenin bir hata değerini nasıl belirlediğini açıklarken, bir maliyet fonksiyonu daha yüksek seviyededir ve eksiksiz bir sistemin optimizasyon için nasıl değerlendirildiğini açıklar. boyutunda veri kümesi için çok sınıflı günlük kaybına dayanan bir maliyet işlevi şöyle görünebilir:N
J=−1N(∑i=1Nyi⋅log(y^i))
Birçok uygulama temel gerçek değerlerinin tek bir sıcak kodlanmış olmasını gerektirir (tek bir gerçek sınıfla), çünkü bu bazı ekstra optimizasyonlara izin verir. Bununla birlikte, prensip olarak, çapraz entropi kaybı, bu olmadığı durumlarda hesaplanabilir ve optimize edilebilir.