“Çapraz entropinin” tanımı ve kökeni


15

Kaynaklara atıfta bulunulmaksızın , Wikipedia , ve ayrı dağılımlarının çapraz entropisini tanımlar.PS

'Hx(P;S)=-Σxp(x)günlükq(x).

Bu miktarı ilk kullanmaya başlayan kimdi? Ve bu terimi kim icat etti? Baktım:

JE Shore ve RW Johnson, "Maksimum entropi ilkesinin aksiyomatik türevi ve minimum çapraz entropi ilkesinin", Bilgi Teorisi, IEEE İşlemleri, cilt. 26, hayır. 1, sayfa 26-37, Ocak 1980.

Girişlerini takip ettim

A. Wehrl, "Entropinin genel özellikleri," Modern Physics, vol. 50, hayır. 2, sayfa 221-260, Nisan 1978.

terim asla kullanılmaz.

Ne de

S. Kullback ve R. Leibler, "Bilgi ve yeterlilik hakkında", Annals of Mathematical Statistics, cilt. 22, hayır. 1, sayfa 79-86, 1951.

İçeri baktım

TM Kapak ve JA Thomas, Bilgi Teorisinin Elemanları (Telekomünikasyon ve Sinyal İşlemede Wiley Serisi). Wiley-Interscience, 2006.

ve

I. İyi, "Hipotez Formülasyonu, Özellikle Çok Boyutlu Acil Tablolar için Maksimum Entropi," Matematiksel İstatistik Yıllıkları, cilt. 34, hayır. 3, s. 911-934,1963.

ancak her iki makale çapraz entropiyi KL-diverjans ile eşanlamlı olarak tanımlamaktadır.

Orijinal kağıt

CE Shannon, "Matematiksel Bir İletişim Kuramı," Bell sistemi teknik dergisi, cilt. 27, 1948.

Çapraz entropiden bahsetmez (ve garip bir "göreli entropi" tanımına sahiptir: "Bir kaynağın entropisinin aynı sembollerle sınırlandırılırken sahip olabileceği maksimum değere oranı").

Sonunda Tribus'un bazı eski kitaplarına ve gazetelerine baktım.

Yukarıdaki denklemin ne dendiğini ve onu kim icat ettiğini veya güzel bir sunumunu bilen var mı?

Yanıtlar:


7

Kullback – Leibler ıraksama kavramı ile yakından ilişkili görünmektedir (bkz. Kullback ve Leibler, 1951 ). Kullback ve Leibler makalelerinde, iki hipotez ( denklemler olarak ) ve Shannon ve Weaver'ın Matematik İletişim Kuramı'nın 18-19. (1949) ve s. Wiener Sibernetiğinin 76'sı (1948). ben1:2(E)2.2-2.4

DÜZENLE:

Ek takma adlar arasında Kullback-Leibler bilgi ölçüsü, göreli bilgi ölçüsü, çapraz entropi, I-ıraksama ve Kerridge yanlışlığı bulunur .


Teşekkürler! Bu referansları kontrol ettim, ancak hala "çapraz entropi" veya eşleşen bir denklemi bulmakta zorlanıyorum. Makalelerden veya kitaplardan birinde birini görürseniz lütfen bize bildirin.
Neil G

1
Belirli bir yıla kadar yayınlanan farklı takma adları olan makaleleri (ör . 1980'e kadar çapraz entropi ) Google bilim adamında geriye doğru arayabilirsiniz .
Itamar

1
Son düzenlemenizle ilgili olarak, sorumda verilen formun tarihiyle ilgileniyorum. İlk yazıların “çapraz entropi” kullandığını ve “KL diverjans” ı kullandığını fark ettim. (Kullback belgesinin sorumu olduğuna dikkat edin.)
Neil G

Üzgünüm, sorudaki Kullback belgesini kaçırdım
Itamar

4

@ Itamar'ın önerisi sayesinde, bir söz buldum:

IJ Good, "Bilgi Teorisinde Bazı Terimler ve Gösterimler," IEE Bildirileri - Bölüm C: Monograflar, cilt. 103, hayır. 3, sayfa 200-204, Mart 1956.

Çapraz entropinin güzel bir sunumunu bulmak benim için gerçekten yararlı olacaktır.


2

Bunun için teşekkürler - arka plan literatürünün iyi bir özeti. IEEE'deki 1980 Shore ve Johnson makalesi iyi bir başlangıçtır, ancak @ itamar'ın 1956'daki İyi monografisine işaretçisi daha da iyidir. Konsept, Shannon'ın çalışmalarından geliyor gibi görünüyor, Kullback & Leibler'in 1951 AMS notu, terimin mevcut kullanımının kaynağıdır. "Çapraz entropi" teriminin kökeni yapay sinir ağları ile ilgili olduğu sürece, 1995 yılında GE Hinton, P. Dayan, BJ Frey ve RM Neal tarafından yayınlanan Science dergisinde yayınlanan bir makalede kullanılmıştır. "Hemholtz Makinesi" teriminin erken bir kullanımı var - muhtemelen ilk. Kopya için URL: http://elderlab.yorku.ca/~elder/teaching/cosc6390psyc6225/readings/hinton%201995.pdf Bu makalede, "Denetimsiz sinir ağları için Wake-sleep algoritması", denklem # 5'ten önceki not şöyle diyor: "Bir giriş vektörünü tanımlamanın birçok alternatif yolu olduğunda, alternatif açıklamalarda entropi [1]. Maliyet o zaman: "(eqn # 5 için makaleye bakınız)" İkinci terim, tanıma ağırlıklarının çeşitli alternatif gösterimlere atadığı dağılımın entropisidir. " Makalenin ilerleyen bölümlerinde, eqn # 5, eqn # 8 olarak yeniden yazılır ve son terim, başlangıç ​​olasılık dağılımı ile posterior olasılık dağılımı arasında Kullback-Leibler sapması olarak tanımlanır. Makalede şöyle diyor: "D'ye eşit olasılık veren iki üretken model için, ) Bu makale hala bu özel algoritmanın minimizasyon sürecini Kullback-Leibler sapmasını en aza indirgemek olarak tanımlamaktadır, ancak "alternatif tanımlamalar arasında entropi" teriminin sadece "çapraz entropiye" kısaltıldığı gibi görünmektedir. TensorFlow kullanarak sayısal bir çapraz entropi örneği için buradaki gönderiye bakın, yardımcı olur: ) Bu makale hala bu özel algoritmanın minimizasyon sürecini Kullback-Leibler sapmasını en aza indirgemek olarak tanımlamaktadır, ancak "alternatif tanımlamalar arasında entropi" teriminin sadece "çapraz entropiye" kısaltıldığı gibi görünmektedir. TensorFlow kullanarak sayısal bir çapraz entropi örneği için buradaki gönderiye bakın, yardımcı olur: /programming/41990250/what-is-cross-entropy CE = 0.47965 çözeltisinin basitçe .619 olasılığının doğal günlüğü alınarak elde edildiğini unutmayın. Yukarıdaki örnekte, "bir sıcak" kodlamanın kullanılması, çapraz değerli entropi toplamında, sıfır değerli ilk olasılıkla çarpma nedeniyle diğer iki başlangıç ​​ve posterior olasılığın göz ardı edildiği anlamına gelir.


+1 Bu doğru olabilir. Yani, 1994'ün modern çapraz entropi tanımının kaynağı olduğunu mu söylüyorsunuz?
Neil G
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.