T-SNE amaç fonksiyonunda neden çapraz entropi yerine Kullback-Leibler ayrıntısını kullanıyoruz?


39

Aklımda, KL örnek dağılımından gerçek dağılıma ayrışma sadece çapraz entropi ve entropi arasındaki farktır.

Neden bir çok makine öğrenme modelinde maliyet fonksiyonu olarak çapraz entropiyi kullanıyoruz, ancak t-sne'de Kullback-Leibler farklılığını kullanıyoruz? Öğrenme hızında herhangi bir fark var mı?


1
KL ile ilgili bazı sezgiler için buraya bakın: stats.stackexchange.com/questions/188903/…
kjetil b halvorsen

Yanıtlar:


81

KL ayrımı, iki olasılık dağılımı arasındaki farkı ölçmenin doğal bir yoludur. Entropi bir dağılımı p kayıpsız kodlama etkinlik çekilen için (ortalama) tabi mesaj başına bit minimum sayısını verir p . Bu sınırın elde edilmesi, daha yüksek olasılık olaylarına daha kısa kod kelimeleri atayan, p için tasarlanmış optimal bir kod kullanılmasını gerektirir . D K L ( s q ) beklenen sayısı olarak yorumlanabilir ilave doğru dağıtım çekilen kodlama etkinlikler için gerekli mesaj başına bit p'H(p)pppDKL(pq)pp dağıtım yerine için en uygun kodu kullanıyorsanız . Dağılımları karşılaştırmak için bazı güzel özelliklere sahiptir. Örneğin, eğer p ve qqppq eşitse, KL sapması 0'dır.

Çapraz entropi doğru dağıtım çekilen kodlama olaylara (ortalama) gerekli mesaj başına bit sayısı olarak yorumlanabilir p dağılımı için optimal bir kodu kullanarak, eğer, q . Farkı not edin: D K L ( p q ) , mesaj başına ortalama ekstra bit sayısını, H ( p , q ) mesaj başına ortalama toplam bit sayısını ölçer . Sabit p için , H ('H(p,q)pqDKL(pq)'H(p,q)pq , p'den giderek daha farklı hale geldikçebüyür. Fakat eğer p sabit tutulmazsa, H'yi ( p , q ) farkın mutlak bir ölçüsü olarakyorumlamak zordur, çünkü p'nin entropisi ile büyür.'H(p,q)qpp'H(p,q)p

KL sapması ve çapraz entropi şöyledir:

DKL(pq)='H(p,q)-'H(p)

Bu ifadeden, ve q eşit olduğunda, çapraz entropinin sıfır olmadığını; aksine, p'nin entropisine eşittir .pqp

Çapraz entropi genellikle makine öğreniminde kayıp fonksiyonlarında görülür. Bu durumların çoğunda, 'doğru' dağıtım, q ise optimize etmeye çalıştığımız model olarak kabul edilir. Örneğin, sınıflandırma problemlerinde, yaygın olarak kullanılan çapraz entropi kaybı (aka log kaybı ), ampirik dağılım arasındaki çapraz entropiyi ölçer.pq etiketlerin (girdiler verilen) ve sınıflandırıcı tarafından öngörülen . Her veri noktası için ampirik dağılım, basitçe o veri noktası sınıfına 1 ve diğer tüm sınıflara 0 atar. Not: Bu durumda, çapraz entropi, negatif kütük olabilirliği ile orantılı olduğu ortaya çıkar, bu nedenle onu en aza indirmek, olasılığı en üst düzeye çıkarmakla eşdeğerdir.

Not (bu örnekte ampirik dağılım) sabittir. Dolayısıyla, ampirik dağılım ile öngörülen dağılım arasındaki KL ayrışmasını en aza indirdiğimizi söylemek eşdeğer olacaktır. Yukarıdaki ifadede görebileceğimiz gibi, ikisi H ( p ) ek terimiyle ( ampirik dağılımın entropisi ) ilişkilidir . Çünkü s sabittir, H ( p )p'H(p)p'H(p)Modelin parametreleriyle değişmez ve kayıp fonksiyonunda göz ardı edilebilir. Teorik / felsefi nedenlerle KL ayrıntısı hakkında konuşmak isteyebiliriz, ancak bu durumda, optimizasyon problemini çözme perspektifinden eşdeğerdirler. Bu, değişebileceği diğer çapraz entropi ve KL sapma kullanımları için doğru olmayabilir.p

pqDKL(pq)pqj|benpj|ben Kullback-Leibler ayrışmasıdır (bu durumda bir katkı sabitine kadar çapraz entropiye eşittir). "

van der Maaten ve Hinton (2008) . T-SNE kullanarak verileri görselleştirme.


Her nasılsa 'favori' cevapları alabilir miyim? Bunu kurtarmak istiyorum çünkü çok güzel bir açıklama
zwep

1
Teşekkürler, bu size yardımcı oldu. Oylama düğmelerinin altındaki yıldız simgesine tıklayarak, bir başlığın tamamını kaydetmek için bir soruyu favori olarak işaretleyebilirsiniz. Sık kullanılanlar listenizi hesap sayfanızda görüntüleyebilirsiniz.
user20160
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.