Cross Validated'in trollenmesinden sonra hala, KL bilgi ayrıntısını bilgi teorisi dünyasının dışında anlamaya daha yakın olduğumu hissetmiyorum. Bilgi teorisi açıklamasını daha kolay anlayabilmeniz için Matematik kökenli biri olarak oldukça garip.
Anlayışımı bir bilgi teorisi altyapısından özetlemek için: Sınırlı sayıda sonuç içeren rastgele bir değişkenimiz varsa, sonucu ortalama olarak en kısa mesajla başka biriyle paylaşmamızı sağlayan optimal bir kodlama vardır (bunu en kolay buluyorum) bit cinsinden resim). En iyi kodlama kullanılıyorsa , sonucun iletilmesi gereken mesajın beklenen uzunluğu verilir. Bir alt optimal kodlama kullanacak olsaydınız, KL farklılaşması bize ortalama olarak mesajımızın ne kadar uzun olacağını söyler.
Bu açıklamayı sevdim, çünkü KL sapmasının asimetrisi ile sezgisel bir şekilde ilgileniyor. İki farklı sistemimiz varsa, yani farklı şekilde yüklenmiş iki yüklü paramız varsa, farklı optimal kodlamalara sahip olurlar. Her nasılsa içgüdüsel olarak ikinci sistemin ilk kodlamasını kullanmanın, ilk sistemin ikinci kodlamasını kullanmanın "eşit derecede kötü" olduğunu hissetmiyorum. Kendimi nasıl ikna ettiğimin düşünce sürecinden geçmeden, şimdi oldukça mutluyum. bu "ek beklenen mesaj uzunluğu", kullanıldığında verir 'la kodlama .qp
Bununla birlikte, Wikipedia da dahil olmak üzere çoğu KL ayrıntısı tanımları, (ayrık terimlerle ayrık olarak çok daha iyi çalışan bilgi teorisi yorumlamaları ile karşılaştırılabilir olması için karşılaştırılabilir olması için) ifadesini iki ayrık olasılığımız varsa dağıtımlar, daha sonra KL, "ne kadar farklı olduklarının" bir ölçüsünü sağlar. Bu iki kavramın nasıl birleştiğine dair tek bir açıklama görmedim. Çıkarım hakkındaki kitabında hatırlıyor gibiyim, Dave Mackay, veri sıkıştırma ve çıkarımın temelde aynı şey olduğuna dair puan veriyor ve sorumun bununla gerçekten ilgili olduğundan şüpheliyim.
Olup olmamaya bakılmaksızın, aklımdaki soru türü çıkarım sorunları ile ilgilidir. (Her şeyi ayrık tutmak), eğer iki radyoaktif örneğimiz varsa ve bunlardan birinin bilinen radyoaktiviteye sahip belirli bir malzeme olduğunu biliyoruz (bu şüpheli bir fizik ama evrenin böyle çalıştığını düşünelim) ve böylece "gerçek" dağılımını biliyoruz. ölçmemiz gereken radyoaktif tıklamaların bilinen ile poissonian olması gerekir , her iki örnek için ampirik bir dağılım oluşturmak ve KL sapmalarını bilinen dağılımla karşılaştırmak ve altının bu malzeme olma ihtimalinin daha yüksek olduğunu söylemek doğru olur mu?
Şüpheli fizikten uzaklaşmak, aynı numuneden iki numunenin alındığını biliyorum, fakat rastgele seçilmediklerini biliyorum, KL sapmalarını bilinen, global dağıtımla karşılaştırarak bana numunelerin "ne kadar önyargılı olduğunu" hissettiriyordum , zaten birine göre ve diğer?
Ve son olarak, önceki soruların cevabı evet ise, neden? Bu şeyleri, bilgi teorisine herhangi bir (muhtemelen tenuous) bağlantı kurmadan, istatistiksel açıdan tek başına anlamak mümkün müdür?