Maliyet fonksiyonları neden kare hatasını kullanıyor?

73

Makine öğrenmeye yeni başlıyorum ve şimdiye dek tek değişkenli doğrusal regresyon ile uğraşıyorum.

Bir hipotez olduğunu öğrendim:

$h_\theta(x)=\theta_0+\theta_1x$

ve parametreleri için iyi değerleri bulmak için, hesaplanan sonuç ile test verilerimizin gerçek sonucu arasındaki farkı en aza indirmek istiyoruz. Yani çıkardık $\theta_0$ $\theta_1$

$h_\theta(x^{(i)})-y^{(i)}$

tüm den için . Dolayısıyla toplamı bu farkın üzerinde hesaplar ve sonra toplamı çarparak ortalamayı hesaplarız . Çok uzak çok iyi. Bu sonuçlanır: $i$ $1$ $m$ $\frac{1}{m}$

$\frac{1}{m}\sum_{i=1}^mh_\theta(x^{(i)})-y^{(i)}$

Ancak bu önerilen şey değil. Bunun yerine, ders farkın kare değerini almayı ve ile çarpmayı önerir . Yani formül: $\frac{1}{2m}$

$\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2$

Neden? Burada kare işlevini neden kullanıyoruz ve neden yerine ? $\frac{1}{2m}$ $\frac{1}{m}$

machine-learning linear-regression loss-function

— Golo Roden
kaynak

3

Stats.stackexchange.com

— user1205197,

Ayrıca Chris McCormick'in goo.gl/VNiUR5

— vimdude 'de

çünkü bu bir Bregman sapması

— Andrew

41

Kayıp işleviniz çalışmayacaktır çünkü herhangi bir sonlu değere ve ila ayarını teşvik eder . $\theta_1$ $\theta_0$ $-\infty$

Diyelim kalıntı için . $r(x,y)=\frac{1}{m}\sum_{i=1}^m {h_\theta\left(x^{(i)}\right)} -y$ $h$

Amacınız olabildiğince sıfıra yaklaştırmak , en aza indirgemek değil . Yüksek negatif bir değer, yüksek pozitif bir değer kadar kötüdür. $r$

EDIT: Bunu, yapay olarak parametre alanını yapay olarak sınırlandırarak (örn. istediğiniz ). Bu durumda, optimum parametreler, parametre alanının sınırındaki belirli noktalara dayanır. Bkz. Https://math.stackexchange.com/q/896388/12467 . İstediğin bu değil. $\mathbf{\Theta}$ $|\theta_0| < 10$

Neden kare kaybını kullanıyoruz

Kare hata ve yi eşleşmeye zorlar . Mümkünse en aza indirgenir ve her zaman , çünkü bu gerçek sayısının bir karesidir . $h(x)$ $y$ $u=v$ $\ge 0$ $u-v$

$|u-v|$ bazı olumlu tamsayılarla , gibi yukarıdaki amaç için de çalışacaktır . Bunlardan ilki aslında kullanılır (buna ' kaybı denir ; kare hatası için başka bir ad olan kaybıyla da karşılaşabilirsiniz ). $(u-v)^{2n}$ $n$ $\ell_1$ $\ell_2$

Peki neden kare kaybı bunlardan daha iyi? Bu, Frequentist ve Bayesian çıkarımı arasındaki bağlantıyla ilgili derin bir sorudur . Kısacası, kare hatası Gauss Gürültüsüyle ilgilidir .

Verileriniz tüm noktalara tam olarak uymuyorsa, yani, , seçtiğiniz ne olursa olsun (pratikte her zaman olduğu gibi) bir nokta için sıfır değildir , bu gürültüden kaynaklanıyor olabilir . Herhangi bir karmaşık sistemde , modeliniz ile realite arasındaki farkın birçok küçük bağımsız nedeni olacaktır : ölçüm hatası, çevresel faktörler vb. Merkezi Limit Teoremi (CLT) ile, toplam gürültü Normal olarak , yani Gauss dağılımı . En uygun seçmek istiyoruz $h(x)-y$ $\theta$ $h$ $y$ $\theta$ bu gürültü dağılımını dikkate alarak. Varsayalım ki, , modelinizin açıklayamadığı nin parçası , Gauss dağılımını izler . Büyük harf kullanıyoruz çünkü şimdi rastgele değişkenlerden bahsediyoruz. $R = h(X)-Y$ $\mathbf{y}$ $\mathcal{N}(\mu,\sigma)$

Gauss dağılımının iki parametresi vardır, ortalama ve varyans . Bu terimleri daha iyi anlamak için buraya bakın . $\mu = \mathbb{E}[R] = \frac{1}{m} \sum_i h_\theta(X^{(i)})-Y^{(i))}$ $\sigma^2 = E[R^2] = \frac{1}{m} \sum_i \left(h_\theta(X^{(i)})-Y^{(i))}\right)^2$

Düşünün , öyle sistematik hata bizim ölçümlerin. Kullanım , sistematik hata düzeltilmesi için ve böylece (okuyucu için egzersiz). Burada yapacak başka bir şey yok. $\mu$ $h'(x) = h(x) - \mu$ $\mu' = \mathbb{E}[R']=0$
$\sigma$ , gürültü de denilen rastgele hatayı temsil eder . Sistematik gürültü bileşenini bir önceki noktada olduğu gibi hallettikten sonra, en iyi tahmin simge küçültülmüş. Başka bir deyişle, en iyi tahmin tahmin edilen değerin etrafındaki en dar dağılımlı (en küçük varyans), yani en küçük varyanstır. En küçük kare kaybını en aza indirmek, varyansı en aza indirmekle aynı şeydir! Bu, en küçük kare kaybın neden çok çeşitli problemler için işe yaradığını açıklar. Altta yatan gürültü CLT nedeniyle çok sık Gauss'tur ve kare hatasını en aza indirgemek doğru olur. $\sigma^2 = \frac{1}{m} \sum_i \left(h_\theta(X^{(i)})-Y^{(i))}\right)^2$ yapılacak şey!

Aynı anda dikkate ortalama ve varyansını hem çekmek için, biz dahil önyargı bizim sınıflandırıcı terimini (sistematik hatayı işlemek için ), sonra kare kaybını en aza indirmek. $\mu$

Takip soruları:

En küçük kareler kaybı = Gauss hatası. Diğer her kayıp işlevi de bir miktar gürültü dağılımına karşılık geliyor mu? Evet. Örneğin, kaybı (kare hata yerine mutlak değeri en aza indirgemek) Laplace dağılımına karşılık gelir ( PDF formülüne bakın - bu sadece yerine ). Olasılık dağılımları için popüler bir kayıp, KL ayrışmasıdır . -Gauss dağılımı, Merkezi Limit Teoremi nedeniyle çok iyi motive olmuş durumda. $\ell_1$ $|x-\mu|$ $(x-\mu)^2$ daha önce tartıştık. Laplace dağılımı ne zaman doğru gürültü modelidir? Orada bu konuda doğal geliyor bazı durumlar vardır, ama bir regularizer gibi daha yaygın olduğunu uygulamak için kıtlık : kayıptır dışbükey az bütün dışbükey kayıpları arasında. $\ell_1$
- As Oca yorumlardaki bahisler arasında asgarileştirir kare sapmaların ortalaması olan ve toplamı asgarileştirir mutlak sapma olduğunu medyan . Niçin artıkların ortalamasını bulmak yerine medyanı bulmak isteyelim? Ortalamanın aksine, medyan çok büyük bir avcı tarafından atılmaz. Yani, kaybı artan sağlamlık için kullanılır. Bazen ikisinin bir kombinasyonu kullanılır. $\ell_1$
Ortalama ve Varyansı minimize ettiğimiz durumlar var mı? Evet. Önyargı Varyans Ticareti'ne bakın . Burada, sınıflandırıcı kümesine bakıyoruz ve hangisinin en iyisi olduğunu soruyoruz. Bir problem için hangi sınıflayıcı grubunun en iyisi olduğunu sorarsak, hem önyargıyı hem de varyansı azaltmak önemlidir. Anlaşılan aralarında bir denge olduğu ortaya çıkıyor ve bir uzlaşma sağlamak için düzenlileşmeyi kullanıyoruz . $h_\theta \in H$

İlgili terimi $\frac{1}{2}$

1/2 önemli değil ve aslında, ne de - ikisi de sabittir. Her iki durumda da en uygun değeri aynı kalır. $m$ $\theta$

Degrade için ifade ile daha da güzelleşir , çünkü kare terimden 2 tanesi iptal olur. $\frac{1}{2}$
- Kod veya algoritmalar yazarken, genellikle gradyanla daha fazla ilgileniriz, bu yüzden kısa ve özlü olmasını sağlar. İlerlemeyi sadece degradenin normunu kontrol ederek kontrol edebilirsiniz. Kayıp işlevinin kendisi bazen koddan çıkarılır, çünkü yalnızca son cevabın doğrulanması için kullanılır.
sen degrade iniş ile bu sorunu çözmek durumunda kullanışlıdır. Ardından degradeniz toplam yerine terimlerinin ortalaması olur , böylece daha fazla veri noktası eklediğinizde 'ölçeği değişmez. $m$ $m$
- Daha önce bu problemle karşılaştım: Kodu az sayıda puanla test ediyorum ve iyi çalışıyor, ancak tüm veri setiyle test ettiğinizde hassasiyet kaybı ve bazen aşırı / düşük akışlar var, yani gradyanınız nanveya inf. Bunu önlemek için, sadece wrt sayıdaki veri noktalarını normalleştirin.
Bu estetik kararlar burada düzenlileştirme terimlerini ekleyeceğiniz gelecekteki denklemlerle tutarlılığı korumak için kullanılır . Eğer eklerseniz düzenlileştirmeye parametresi veri kümesi boyutu bağlı olmayacaktır ve sorunların genelinde daha yorumlanabilir olacaktır. $m$ $\lambda$ $m$

— Sert
kaynak

“türevi aldığınızda, ifade daha güzel, çünkü 2, 2'yi kare terimden iptal eder” demiştiniz. Peki neden türevini almak istiyoruz?

— DrGeneral

Türev almayı gerektiren gradyan inişini kullanarak genellikle zararı optimize ederiz. Bundan bahsetmedim, çünkü bu sorunun bağlamında açık olması gerekir.

— Sert,

1

Sert, saflığımı bağışlayın, fakat neden kare yerine mutlak bir değer kullanmıyorsunuz?

— Alexander Suraphel

1

Mutlak hata da işe yarayabilir, ancak bu durumda ortalama yerine beklenen ortanca gerileme olacaktır. Küçük bir sayılar listesi alın ve tahmininizi değiştirerek zararın nasıl değiştiğini görün (hem kare hem de mutlak hata için)

— Jan van der Vegt

@AlexanderSuraphel Cevap vermedeki gecikme için özür dilerim :) Bunu ele almak için bir bölüm ekledim

— Harsh

25

1/2 katsayısı sadece kolaylık sağlamak içindir; aslında optimize edilen fonksiyon olan türevi daha iyi görünmesini sağlar. 1 / m daha temeldir; ortalama kare hatası ile ilgilendiğimizi gösteriyor . Bu, örnek boyutunu değiştirirken adil karşılaştırmalar yapmanızı sağlar ve taşmayı önler. "Stokastik" olarak adlandırılan optimize ediciler, veri setinin bir alt kümesini kullanırlar (m '<m). Düzenleyici (amaç işlevine ek terim) uyguladığınızda, 1 / m faktörünü kullanmak, örnekleyici boyutundan bağımsız olarak düzenleyici için aynı katsayıyı kullanmanıza izin verir.

Neden karenin değil, sadece farkın olduğu sorusuna gelince: hafife almanın, aşırı tahminlere benzer şekilde cezalandırılmasını istemiyor musunuz? Kare alma, hata işaretinin etkisini ortadan kaldırır. Mutlak değeri (L1 normu) alarak da yapar, ancak türevi başlangıçta tanımsızdır, bu nedenle kullanımı daha sofistike gerektirir. L1 normunun kullanımları vardır, bu nedenle aklınızda bulundurun ve öğretmene bunu kapsayacak mı diye sorun.

— Emre
kaynak

4

Farklılaşmaya ek olarak, normu, normlarında bir Hilbert uzayı olması bakımından benzersizdir . Normun bir iç üründen kaynaklandığı gerçeği, için diğer normlar için mevcut olmayan büyük miktarda makine üretmektedir .

L^{2}

$L^2$

L^{p}

$L^p$

L^{2}

$L^2$

— Steven Gubkin

6

Kayıp fonksiyonundaki hata ölçüsü 'istatistiksel bir mesafedir; Öklid uzayında iki vektör arasındaki mesafenin popüler ve ön anlayışının aksine. 'İstatistiksel mesafe' ile, tahmini model ile optimal model arasındaki 'benzerliği' Öklid uzayına eşleştirmeye çalışıyoruz.

Bu 'istatistiksel mesafenin' formülasyonu ile ilgili kısıtlayıcı bir kural yoktur, ancak seçim uygunsa, optimizasyon sırasında bu 'mesafedeki' kademeli bir azalma, aşamalı olarak iyileştirici bir model tahminine dönüşür. Sonuç olarak, 'istatistiksel mesafe' veya hata ölçüsü seçimi, temel veri dağılımı ile ilgilidir.

Aslında, farklı istatistiksel dağılım sınıfları için birkaç iyi tanımlanmış mesafe / hata ölçüsü vardır. Eldeki verilerin dağılımına göre hata ölçüsünü seçmeniz önerilir. Bu sadece Gauss dağılımının her yerde olduğu ve bunun sonucunda ilişkili uzaklık ölçüsü olan L2-normunun en popüler hata ölçütü olduğu şeklinde gerçekleşir. Bununla birlikte, bu bir kural değildir ve 'verimli' * bir optimizasyon uygulamasının L2 normundan farklı bir hata ölçütü alacağı gerçek dünya verileri vardır.

Bregman sapmalarını düşünün . Bu sapma ölçüsünün kanonik gösterimi L2-normudur (kare hata). Aynı zamanda göreceli entropi (Kullback-Liebler ayrışması), genelleştirilmiş Öklid mesafesi (Mahalanobis metriği) ve Itakura-Saito işlevini içerir. Fonksiyonel Bregman Diverjansı ve Bayes Dağılımlarının Tahmini hakkındaki yazıda daha fazla bilgi edinebilirsiniz .

Paket Alma: L2-normu, hata ölçümü için popüler bir seçim yapan ilginç özelliklere sahiptir (buradaki bazı cevaplar, bu sorunun kapsamı için yeterli), ve kare hatası uygun olacaktır. çoğu zaman seçim. Bununla birlikte, veri dağıtımı gerektirdiğinde, seçim için alternatif hata önlemleri vardır ve seçim büyük ölçüde optimizasyon rutininin formülasyonuna bağlıdır.

* 'Uygun' hata ölçüsü, kayıp fonksiyonunun dışbükey olmadığı ve dolayısıyla zor olduğu diğer bazı hata ölçütlerinin aksine, optimizasyon için kayıp fonksiyonunun dışbükey olmasını sağlar.

— Dinamik Stardust
kaynak

5

Başkaları tarafından yapılan kilit noktalara ek olarak, kare hata kullanmak daha büyük hataya daha fazla önem verir (kare yerine 3/2 ye ne olur?).

Kesirli hataları hareket eden bir algoritmaya sahip olmak, muhtemelen doğru sınıflandırmaya ya da tahmin ve zemin gerçeği arasında çok küçük bir farkla sonuçlanacaktır, eğer büyük hatalar büyük hatalar veya yanlış sınıflandırmalar olarak bırakılırken, sıfıra yakın bırakılırsa, bir algoritma.

Kare hata kullanmak, hatayı tahmini ayarlamak için zımni bir önem ağırlığı olarak kullanır.

— bobv
kaynak

öyleyse, keyfi hata nedir

— jeza 8:18

3

Formülasyonunuzda, yaklaşımınızın ortalama sapmasını gözlemlenen verilerden elde etmeye çalışıyorsunuz.

Yaklaşımınızın ortalama değeri, gözlenen verinin ortalama değerine yakın veya eşitse (arzu edilen ve çoğu zaman birçok yaklaşım şemasında meydana gelen bir şey), formülasyonunuzun sonucu sıfır veya önemsiz olacaktır, çünkü pozitif hatalar negatifle telafi eder. hatalar. Bu durum, gözlemlenen her numunede yaklaşımınızın harika olduğu sonucuna varabilir, ancak durum böyle olmayabilir. Bu nedenle her örnekte hatanın karesini kullanırsınız ve bunları eklersiniz (her hatanın sırasını pozitif).

Elbette bu, L1-normunu (her numunedeki hatanın mutlak değeri) veya L2-normunu yerine başkalarını kullanmış olabileceğinizden olası bir çözümdür.

— W641
kaynak

Maliyet fonksiyonları neden kare hatasını kullanıyor?

Neden kare kaybını kullanıyoruz

İlgili terimi1212\frac{1}{2}

İlgili terimi $\frac{1}{2}$