Neden bazen olumsuz (log) olasılığını kullandığımızı merak ediyorum?


46

Bu soru beni uzun zamandır şaşırttı. Olasılığın en üst düzeye çıkarılmasında 'log' kullanımını anlamıyorum, bu yüzden 'log' hakkında sormuyorum.

Sorum şu: log olasılığını en üst düzeye çıkarmak, "negatif log olasılığını" (NLL) en aza indirmeye eşdeğer olduğu için neden bu NLL'yi icat ettik? Neden sürekli "pozitif olasılık" kullanmıyoruz? NLL hangi durumlarda tercih edilir?

Burada küçük bir açıklama buldum. https://quantivity.wordpress.com/2011/05/23/why-minimize-negative-log-likelihood/ ;

Herhangi bir açıklama takdir edilecektir.


3
Maksimum Günlük Olabilirliği bir kayıp işlevi değildir ancak olumsuzluğu son bölümdeki makalede açıklandığı gibidir. Bu bir tutarlılık meselesidir. Belirli bir problem için farklı kayıp fonksiyonlarını deneyen akıllı bir öğrenme sisteminizin olduğunu varsayalım. Kayıp fonksiyonları kümesinde kareler kaybı, mutlak kayıp vb. İçerecektir. Tutarlı bir listeye sahip olmak için, kayıp fonksiyonları listesine negatif log olasılığı ekleyeceksiniz.
Cagdas Ozgenc 10:15

Yanıtlar:


41

Bu alternatif bir cevaptır: istatistiksel paketlerdeki optimize ediciler genellikle bir fonksiyonun sonucunu en aza indirerek çalışır. Eğer fonksiyonunuz ilk olasılık değerini verirse, olasılık fonksiyonunun döndürdüğü değeri azaltmak için logaritma kullanmak daha uygundur. Ardından, günlük olasılığı ve olasılık işlevi aynı artan veya azalan bir eğilime sahip olduğundan, test ettiğiniz işlevin maksimum olasılık tahminini gerçekleştirmek için negatif günlük olasılığını en aza indirebilirsiniz . Örnek olarak burada R fonksiyonuna bakınız.nlminb


10
Bunun bile optimizerlerin ötesine geçtiğini ve optimizasyon teorisindeki sözleşmelere dayandığını söyleyebilirim. En aza indirmenin çoğu zaman varsayılan optimizasyon olduğu düşünülmektedir. Örneğin, simge durumuna küçültmeyle birlikte gelen ancak kolayca "içbükey optimizasyon" olarak da adlandırılan "dışbükey optimizasyon" adını düşünün.
Bitwise

47

İyileştiriciler, genellikle bir işlevi en aza indirger, bu nedenle, en aza indirgemek olarak, log olasılığını veya olasılığın kendisini en üst düzeye çıkarmakla eşdeğer olan negatif log olasılığı kullanırız.

Sadece bütünlük için, logaritmanın monotonik bir işlev olduğunu söyleyeceğim, bu yüzden bir işlevi optimize etmek onun logaritmasını optimize etmekle aynı. Olabilirlik fonksiyonunun log dönüşümünü yapmak kolaylaşmayı kolaylaştırır (çarpma toplamlar olur) ve bu aynı zamanda sayısal olarak daha kararlıdır. Çünkü ihtimallerin büyüklüğü çok küçük olabilir. Bir log dönüşümü yapmak, bu küçük sayıları sonlu bir hassas makinenin daha iyi idare edebileceği daha büyük negatif değerlere dönüştürür.


4
Örnek olarak, çalışmalarımda sık sık -40.000 sipariş kütüğü olabilir. Bu rejimde ihtimalin kendisiyle çalışmak sayısal olarak imkansız.
Will Vousden,

3

Burada simge durumuna küçültme araçları iki dağıtımın mesafesini en aza indirger : hedef Bernoulli dağılımı ve oluşturulan sonuç dağılımı. İki dağılımın mesafesini Kullback-Leibler ayrıntısını kullanarak (ayrıca göreceli entropi de denir) kullanarak ölçürüz ve KL ayrışmasını en aza indiren çok sayıdaki teori nedeniyle, çapraz entropiyi en aza indirmeye tutar (çok-sınıflı çapraz entropi, buraya bakın veya ikili sınıflandırma, buraya bakın ve burada ).

Böylece

log olasılığını en üst düzeye çıkarmak "negatif log olasılığını" en aza indirmeye eşdeğerdir

çevrilebilir

Tomruk olasılığını en üst düzeye çıkarmak, iki dağılım arasındaki mesafeyi en aza indirmeye eşdeğerdir, bu nedenle KL sapmasını ve daha sonra çapraz entropiyi en aza indirmeye eşdeğerdir.

Bence oldukça sezgisel hale geldi.


0

Cevap düşündüğünüzden daha basittir. Optimizasyon amacı işlevine "maliyet işlevi" veya "kayıp işlevi" olarak adlandırdığımız ve bu nedenle, bunları en üst düzeye çıkarmak yerine en aza indirgemek istiyoruz ve bu nedenle, negatif kütük olasılığınızı oluşturmak yerine, negatif kütük olasılığı oluşturulur. sözcüğü. Teknik olarak ikisi de doğru. Bu arada, eğer bir şeyi en üst düzeye çıkarmak istiyorsak, genellikle onu "yardımcı işlev" olarak adlandırırız ve bu nedenle amaç onları en üst düzeye çıkarmaktır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.