L2, bir posterior kaybın hesaplanması için iyi bir kayıp fonksiyonuna ne örnek olabilir?


9

L2 kaybı, L0 ve L1 kaybı ile birlikte, posterior beklenen minimum kayıp ile posterior özetlenirken kullanılan üç yaygın "varsayılan" kayıp fonksiyonudur. Bunun bir nedeni belki de hesaplanması nispeten kolaydır (en azından 1d dağılımları için), L0 modda, L1 medyanda ve L2 ortalamadadır. Öğretirken, L0 ve L1'in makul kayıp fonksiyonları olduğu senaryolar (sadece "varsayılan" değil) ile gelebilirim, ancak L2'nin makul bir kayıp fonksiyonu olacağı bir senaryo ile mücadele ediyorum. Benim sorum:

Pedagojik amaçlar için, L2'nin minimum posterior kaybı hesaplamak için iyi bir kayıp fonksiyonu olduğu zaman bir örnek ne olabilir?

L0 için bahis senaryoları bulmak kolaydır. Yaklaşmakta olan bir futbol oyununda toplam gol sayısı üzerine bir posterior hesapladığınızı ve gol sayısını doğru tahmin ederseniz ve aksi halde kaybederseniz $$$ kazandığınız yere bir bahis yapacağınızı varsayalım. O zaman L0 makul bir kayıp fonksiyonudur.

L1 örneğim biraz karışık. Birçok havaalanından birine ulaşacak ve sonra size araba ile seyahat edecek bir arkadaşla buluşuyorsunuz, sorun hangi havaalanını bilmiyor olmanız (ve havada olduğu için arkadaşınızı arayamamanız). Hangi havaalanına inebileceğine dair bir posterior göz önüne alındığında, onunla aranızdaki mesafenin küçük olduğu için, kendinizi konumlandırmak için iyi bir yer nerede? Burada, arabasının doğrudan bulunduğunuz yere sabit hızda gideceğini basitleştiren varsayımlar yaparsanız, beklenen L1 kaybını en aza indiren nokta makul görünmektedir. Yani, bir saatlik bekleme süresi 30 dakikalık bekleme süresinin iki katıdır.


Uyarı: L0 sürekli sorunlar için mod ile sonuçlanmaz ....
Xi'an

Hmm, evet, L0 -> modunu söylemenin biraz özensiz olduğunu biliyorum.
Rasmus Bååth

2
Ters kare yasasına baktığımızda, uzayda seçebileceğimiz herhangi bir noktanın L2 kaybını kullanmak, en yakın kaynak dışındaki her şeyden ihmal edilebilir ışık alacak şekilde yerleştirilmiş birkaç ışık kaynağınız varsa, L2 kaybını kullanmak, lümen başına saniye cinsinden. Saniyede lümeni maksimuma çıkarmak yerine bunu neden yapmak istediğini düşünemiyorum.
Kazara İstatistikçi

Yanıtlar:


4
  1. L2 "kolay". Doğrusal regresyon, SVD, vb.Gibi standart matris yöntemleri yaparsanız varsayılan olarak aldığınız şeydir. Gauss süreçleri gibi birçok meraklı yöntemle L2 kaybını kullanarak kesin bir cevap almak, diğer kayıp fonksiyonlarını kullanarak kesin bir cevap almaktan daha kolaydır.

  2. İlgili olarak, L2 kaybını tam olarak 2. derece Taylor yaklaşımı kullanarak alabilirsiniz, bu çoğu kayıp fonksiyonu için geçerli değildir (örn. Çapraz entropi,). Bu, Newton yöntemi gibi 2. dereceden yöntemlerle optimizasyonu kolaylaştırır. Diğer kayıp fonksiyonları ile başa çıkmak için birçok yöntem hala aynı nedenden ötürü kaputun altında L2 kaybı için yöntemler kullanmaktadır (örn.

  3. L2 Gauss dağılımlarıyla yakından ilişkilidir ve Merkezi Limit Teoremi Gauss dağılımlarını yaygınlaştırır. Veri oluşturma süreciniz (şartlı olarak) Gaussian ise, L2 en etkili tahmin edicidir.

  4. L2 kaybı, toplam varyans yasası nedeniyle iyi ayrışır. Bu, gizli değişkenlere sahip bazı grafik modellerin özellikle uymasını kolaylaştırır.

  5. L2 korkunç tahminleri orantısız bir şekilde cezalandırır. Bu iyi veya kötü olabilir, ancak genellikle oldukça mantıklıdır. Bir saatlik bekleme, ortalama olarak 30 dakikalık bekleme süresinin dört katı kadar kötü olabilir; bu, birçok kişinin randevularını kaçırmasına neden oluyorsa.


2
Hmm, peşinde olduğum şey daha çok L2'nin makul bir kayıp fonksiyonu olacağı bir karar durumu gibiydi. Sorumdaki iki örneğe benzer senaryo gibi, ama L2 için.
Rasmus Bååth

1
@ RasmusBååth Kaybın tam olarak karesi alındığından (# 3'teki Gauss veri üreten süreçlerle bağlantısının dışında) bir argümandan emin değilim , ancak # 5, bir tür hızlanan kayıp fonksiyonu için bir argüman. İkinci sıraya göre, bu tür işlevler L2 kaybıyla eşleşecektir.
David J. Harris

@ DavidJ.Harris Aslında # 5 yanlış. Böyle bir durumda yapacağınız şey, hayal kırıklığını en aza indirmek için L1 abs (xy) kaybını kullanmaktır = time². Önerdiğiniz gibi (xy) ² kaybını kullanmak, size asgari bir sonuç verecektir.
Méhor Mé

@ ÍhorMé Sanırım sizi yanlış anlamam gerekiyor. Kare hatasını en aza indirmenin en iyi yolunun L2 normunu değil, mutlak kaybı en aza indirgemek olduğunu söylüyorsunuz .
David J. Harris

@ DavidJ.Harris Evet, bunun "kötülüğü" (= time diff²) en aza indirgeme sorunu olduğunu ve beklemek için harcanan zamanı değil, esasen düşündüğümü belirtmeye çalışıyordum, ama sanırım düşünce denemesini başlangıçta yanlış anladım. Şimdi tekrar okuduğum için, L2 zaman farkını en aza indirmekten "kötülüğü" en aza indirmeye geçmenin yasal bir yoludur. Yine de şunu söylemeliyim ki, bir programcı ilk önce hangi "kötülüğü" en aza indirmek, sonra bu değeri elde etmek ve sonra L1 ile küçültmek isterse doğru bir şekilde tanımlamak en iyisidir. Bu durumda önce (zaman farkı) ² alırsınız, sonra L1 kaybını en aza indirirsiniz. L2 ile sadece ne yaptığınızı bildiğiniz zaman gidin.
Méhor Mé
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.