Bilgi kazanımı, karşılıklı bilgi ve ilgili önlemler


33

Andrew More bilgi kazancını şöyle tanımlar :

IG(Y|X)=H(Y)H(Y|X)

burada olan koşullu entropi . Ancak, Wikipedia yukarıdaki miktar karşılıklı bilgileri çağırır .H(Y|X)

Vikipedi, bilgi kazancını iki rastgele değişken arasındaki Kullback – Leibler ayrıntısı (aka bilgi ayrışması veya göreceli entropi) olarak tanımlar :

DKL(P||Q)=H(P,Q)H(P)

burada çapraz entropi olarak tanımlanmaktadır .H(P,Q)

Bu iki tanım birbiriyle tutarsız görünüyor.

Ayrıca diğer yazarları, diferansiyel entropi ve göreceli bilgi kazanımı gibi iki ek ilgili kavramdan bahsettiğini de gördüm.

Bu nicelikler arasındaki kesin tanım veya ilişki nedir? Hepsini kapsayan iyi bir ders kitabı var mı?

  • Bilgi kazancı
  • Karşılıklı bilgi
  • Çapraz entropi
  • Koşullu entropi
  • Diferansiyel entropi
  • Göreceli bilgi kazancı

2
Kargaşayı daha da eklemek için, çapraz entropi için kullandığınız notasyonun, eklem entropisi için kullanılan notasyonun da aynı olduğuna dikkat edin. Ben kullandım kendim kafa karıştırıcı önlemek için çapraz entropi için, ama benim yararına olduğunu en ve ben başka bir yerde o notasyonu görmedim. 'Hx(P,S)
Michael McGowan

Yanıtlar:


24

Kullback-Leibler ıraksama "bilgi kazancı" olarak adlandırmanın standart olmadığını düşünüyorum.

İlk tanım standart.

EDIT: Ancak, de karşılıklı bilgi olarak adlandırılabilir.H(Y)H(Y|X)

Gerçekten standart, kesin ve tutarlı bir adlandırma düzenine sahip herhangi bir bilimsel disiplin bulacağınızı düşünmüyorum. Bu yüzden her zaman formüllere bakmak zorunda kalacaksınız, çünkü genellikle size daha iyi bir fikir vereceklerdir.

Ders kitapları: bkz. "Farklı entropilere giriş" .

Ayrıca: Cosma Shalizi: Karmaşık Sistem Biliminin Yöntem ve Teknikleri: Genel Bir Bakış, Thomas S. Deisboeck ve J. Yasha Kresh (ed.), Biomedicine Kompleks Sistem Bilimi bölüm 1 (s. 33-114) http: // arxiv.org/abs/nlin.AO/0307015

Robert M. Gray: Entropi ve Bilgi Teorisi http://ee.stanford.edu/~gray/it.html

David MacKay: Bilgi Kuramı, Çıkarım ve Öğrenme Algoritmaları http://www.inference.phy.cam.ac.uk/mackay/itila/book.html

ayrıca, "Entropi ve bilgi kazancı" nedir?


Teşekkürler @wolf. Bu cevabı kabul etmeye meyilliyim. İlk tanım standartsa, karşılıklı bilgileri nasıl tanımlarsınız?
Amelio Vazquez-Reina,

2
üzgünüm. ilk miktar, de sıklıkla karşılıklı bilgi olarak adlandırılır. Bu tutarsız bir adlandırma örneği. Dediğim gibi, kavramların ve isimlerin tutarlı, açık, birebir yazışması olduğunu sanmıyorum. Örneğin, "karşılıklı bilgi" veya "bilgi kazancı" özel bir KL sapma durumudur, bu yüzden wikipedia makalesi o kadar uzakta değil. IG(Y|X)=H(Y)H(Y|X)
wolf.rauch

4

p(X,Y)P(X)P(Y)

I(X;Y)=H(Y)H(YX)=yp(y)logp(y)+x,yp(x)p(yx)logp(yx)=x,yp(x,y)logp(yx)y(xp(x,y))logp(y)=x,yp(x,y)logp(yx)x,yp(x,y)logp(y)=x,yp(x,y)logp(yx)p(y)=x,yp(x,y)logp(yx)p(x)p(y)p(x)=x,yp(x,y)logp(x,y)p(y)p(x)=DKL(P(X,Y)∣∣P(X)P(Y))

Note: p(y)=xp(x,y)


1

Mutual information can be defined using Kullback-Liebler as

I(X;Y)=DKL(p(x,y)||p(x)p(y)).

1

Extracting mutual information from textual datasets as a feature to train machine learning model: ( the task was to predict age, gender and personality of bloggers)

enter image description here


1

Both definitions are correct, and consistent. I'm not sure what you find unclear as you point out multiple points that might need clarification.

Firstly: MIMutualInformation IGInformationGainIInformation are all different names for the same thing. In different contexts one of these names may be preferable, i will call it hereon Information.

The second point is the relation between the Kullback–Leibler divergence-DKL, and Information. The Kullback–Leibler divergence is simply a measure of dissimilarity between two distributions. The Information can be defined in these terms of distributions' dissimilarity (see Yters' response). So information is a special case of KLD, where KLD is applied to measure the difference between the actual joint distribution of two variables (which captures their dependence) and the hypothetical joint distribution of the same variables, were they to be independent. We call that quantity Information.

The third point to clarify is the inconsistent, though standard notation being used, namely that H(X,Y) is both the notation for Joint entropy and for Cross-entropy as well.

So, for example, in the definition of Information:

in both last lines, H(X,Y) is the joint entropy. This may seem inconsistent with the definition in the Information gain page however: DKL(P||Q)=H(P,Q)H(P) but you did not fail to quote the important clarification - H(P,Q) is being used there as the cross-entropy (as is the case too in the cross entropy page).

Joint-entropy and Cross-entropy are NOT the same.

Check out this and this where this ambiguous notation is addressed and a unique notation for cross-entropy is offered - Hq(p)

I would hope to see this notation accepted and the wiki-pages updated.


wonder why the equations are not displayed properly..
Shaohua Li
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.