Neden iki farklı lojistik kayıp formülasyonu / gösterimi var?


23

İki tür lojistik kayıp formülasyonu gördüm. Kolayca aynı olduklarını kolayca gösterebiliriz, tek fark etiketinin tanımıdır .y

Formülasyon / gösterim 1, :y{0,+1}

L(y,βTx)=ylog(p)(1y)log(1p)

burada lojistik fonksiyon bir gerçek sayı harita, 0,1 aralığı. βTxp=11+exp(βTx)βTx

Formülasyon / gösterim 2, :y{1,+1}

L(y,βTx)=log(1+exp(yβTx))

Bir gösterim seçmek, bir dil seçmek gibidir, birbirini kullanmanın artıları ve eksileri vardır. Bu iki gösterim için lehte ve aleyhte olanlar nelerdir?


Bu soruyu cevaplama girişimlerim, istatistik topluluğunun ilk gösterimi sevdiğini ve bilgisayar bilimi topluluğunun ikinci gösterimi sevdiğini gösteriyor.

  • İlk gösterim, "olasılık" terimi ile açıklanabilir, çünkü lojistik fonksiyon gerçek bir sayı olan 0,1 aralığına dönüştürür.βTx
  • İkinci gösterim daha kısa ve menteşe kaybı veya 0-1 kaybı ile karşılaştırmak daha kolaydır.

Haklı mıyım Başka bir görüş var mı?


4
Bunun daha önce defalarca sorulması gerektiğine eminim. Örneğin stats.stackexchange.com/q/145147/5739
StasK

1
İkinci gösterimin menteşe kaybına göre daha kolay olduğunu neden söylüyorsunuz? Sırf { 0 , 1 } yerine tanımlanması mı yoksa? {1,1}{0,1}
shadowtalker,

1
İlk formun simetrisini sevdim, ama lineer kısım oldukça derin gömülü, bu yüzden çalışmak zor olabilir.
Matthew Drury

@ssdecontrol bu rakamı kontrol edin, cs.cmu.edu/~yandongl/loss.html burada x ekseni ve y ekseni kayıp değeridir. Böyle tanım vb 01 kayıp, menteşe kaybı ile karşılaştırmak uygun oluryβTx
Haitao Du

Yanıtlar:


12

Kısa versiyonu

  • Evet
  • Evet

Uzun versiyon

Matematiksel modellemenin güzel yanı esnek olmasıdır. Bunlar gerçekten eşdeğer kayıp fonksiyonlarıdır, ancak verinin temel modellerinden çok farklıdırlar.

Formül 1

İlk gösterim , geleneksel olarak { 0 , 1 } 'te tanımlanan y için bir Bernoulli olasılık modelinden türemiştir . Bu modelde, sonuç / etiket / sınıf / tahmini bir rastgele değişkenin temsil edilir Y'nin bir, aşağıdaki B e r n O u l l I ( s ) dağılımı. Bu nedenle, olasılığı: P ( Y = y | p ) = L ( p ; y ) = p yy{0,1}YBernoulli(p)

P(Y=y | p)=L(p;y)=py (1p)1y={1py=0py=1

için . Gösterge değerleri olarak 0 ve 1 kullanımı, özlü ifadenin en sağındaki parçalı işlevi azaltmamızı sağlar.p[0,1]

Eğer işaret ettiğimiz gibi, daha sonra bağlayabilirsiniz giriş veri matrisi için x sağlayarak logit p = β T x . Buradan, basit cebirsel manipülasyon ortaya koymaktadır günlük L ( s , y ) birinci ile aynı olan L ( y , β T x ) için, söz konusu (ipucu: ( y - 1 ) = - ( 1 - y ) ). Böylece { 0 üzerindeki log kaybını en aza indirgemek ,Yxlogitp=βTxlogL(p;y)L(y,βTx)(y1)=(1y) bir Bernoulli modelinin maksimum olabilirlik tahminine eşdeğerdir.{0,1}

Bu formülasyon, aynı zamanda, özel bir durumdur genel lineer model olarak formüle edilir, tersinir, türevlenebilir fonksiyonu g ve bir dağıtım D olarak üstel etti .YD(θ), g(Y)=βTxgD

Formül 2

Aslında .. ı tanımlamak Ancak, Formül 2 ile aşina değilim ile ilgili { - 1 , 1 } bir formülasyonunda standart destek vektör makinesi . Bir SVM'nin takılması, maksimuma ( { 0 , 1 - y β T x } ) + λ β 2 oranına karşılık gelir .y{1,1}

max({0,1yβTx})+λβ2.

Bu, kısıtlı bir optimizasyon probleminin Lagrangian şeklidir . Bu ise , aynı zamanda bir örneği, düzgünleştirilmiş amaç fonksiyonu ile optimizasyon problemi bir kayıp fonksiyonu için ve skalar hyperparameter X kontrol regularization (aynı zamanda "büzülme") miktarı, uygulanan bu β . Menteşe kaybı sadece biridir çeşitli açılan olanakları ikinci arasında, L ( Y , β T x

(y,β)+λβ2
λβ Sorunuzda.L(y,βTx)

Formül 1 'de olmamalıdır:
py(1p)1y1y
glebm

7

@ Ssdecontrol'ün çok iyi bir cevabı olduğunu düşünüyorum. Sadece kendi sorum için formül 2'ye bazı yorumlar eklemek istiyorum.

L(y,y^)=log(1+exp(yy^))

İnsanların bu formülasyonu sevmesinin nedeni özlü olması ve "olasılık yorumlama ayrıntılarını" kaldırmasıdır.

y^yy^

L01(y,y^)=I[yy^>0]Lhinge(y,y^)=(1yy^)+Llogistic(y,y^)=log(1+exp(yy^))

enter image description here

yy^y^βTx


Kolay karşılaştırma hakkında ne demek istediğinizi anlıyorum
shadowtalker
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.