Kare hatasını en aza indirmek, mutlak hatayı en aza indirmeye eşdeğer midir? Neden kare hata ikincisinden daha popüler?


38

Doğrusal regresyon yaptığımızda, bir sürü veri noktasına uyacak şekilde , klasik yaklaşım kare hatasını en aza indirir. Uzun zamandır karelerdeki hatayı en aza indirecek bir soruyu şaşırtmıştım , mutlak hatayı minimize etmekle aynı sonucu verdin mi? Değilse neden kare hatasını en aza indirgemek daha iyidir? “Amaç işlevi farklılaştırılabilir” den başka bir sebep var mı?y=ax+b(x1,y1),(x2,y2),...,(xn,yn)

Kare hata da model performansını değerlendirmek için yaygın olarak kullanılır, ancak mutlak hata daha az popülerdir. Neden kare hata mutlak hatadan daha yaygın kullanılır? Eğer türev alma söz konusu değilse, mutlak hatayı hesaplamak kare hatayı hesaplamak kadar kolaydır, o zaman neden kare hatası bu kadar yaygın ? Prevalansını açıklayabilecek benzersiz bir avantaj var mı?

Teşekkür ederim.


Her zaman arkasında bazı optimizasyon problemleri vardır ve minimum / maksimum değerlerini bulmak için degradeleri hesaplamak istersiniz.
Vladislavs Dovgalecs

11
x ( - 1 , 1 ) x 2 > | x | | x | > 1x2<|x|için veeğer . Dolayısıyla, kare hata büyük hataları mutlak hataya göre daha fazla cezalandırır ve küçük hataların mutlak hataya göre daha fazla affetmesini sağlar. Bu, birçok kişinin, yapmanın uygun bir yolu olduğuna inandığı şey ile de uyumludur. x(1,1)x2>|x||x|>1
Dilip Sarwate

Yanıtlar:


46

Kare hataları en aza indirmek (MSE) kesinlikle hataların mutlak sapmalarını (MAD) en aza indirmekle aynı değildir. MSE, üzerinde şartlandırılmış ortalama cevabını sağlarken, MAD, üzerinde şartlandırılmış medyan cevabını sağlar .x y xyxyx

Tarihsel olarak, Laplace, başlangıçta gözlenen en büyük hatayı bir modelin doğruluğunun bir ölçüsü olarak görüyordu . Yakında bunun yerine MAD düşünmeye taşındı . Her iki durumu da tam olarak çözemediği için kısa süre sonra diferansiyel MSE'yi düşündü. Kendisi ve Gauss (görünüşte eşzamanlı olarak) bu problem için kapalı formlu bir çözüm olan normal denklemleri türetmiştir. Günümüzde, MAD'in çözümü doğrusal programlama yoluyla nispeten kolaydır. Ancak, iyi bilindiği gibi, doğrusal programlama kapalı formlu bir çözüme sahip değildir.

Optimizasyon perspektifinden bakıldığında, her ikisi de dışbükey işlevlerine karşılık gelir. Bununla birlikte, MSE farklılaşabilir, bu nedenle, farklılaşamayan emsallerinden çok daha verimli olan gradyan tabanlı yöntemlere izin verir. MAD, ayırt edilemez .x=0

Diğer bir teorik sebep, bayesyen bir ortamda, model parametrelerinin tek tip önceliklerini varsayırken, MSE'nin, yöntemin doğruluğunun kanıtı olarak alınmış normal dağılmış hataları vermesidir. Teorisyenler normal dağılıma benzer çünkü deneysel bir deney olduğuna inanırlar, çünkü deneysel deneysel teorik bir sonuç olduğuna inanırlar.

MSE'nin neden bu kadar kabul görmesinin son bir nedeni, geometrik gerçekliğimiz göz önüne alındığında, son derece sezgisel olan, öklid mesafesine (aslında bir öklid banach alanına yansıtma sorununun bir çözümü) dayanmasıdır.


1
Laplace referansı için (+1)!
Xi'an

2
"Teorisyenler normal dağılıma benzer çünkü deneysel bir teorik sonuç olduğuna inandıkları için deneysel, deneysel bir gerçek olduğuna inanıyorlardı." -- Onu seviyorum. Ancak Gauss dağılımı için doğrudan fizik uygulamaları da yok mu? Ve ayrıca maksimum entropi dağılımları ile ilgili şeyler de var
shadowtalker

8
@ssdecontrol Epigramın yüz yıldan biraz daha uzun bir süre önce Henri Poincaré'den kaynaklandığını düşünüyorum. Tören ledi yüce cependant, benim için bir şey istemedim, M. Lippmann. “Herkes bunun [hataların normal olarak dağıldığından emin olduğundan] emin bir şekilde, Bay Lippman bana bir gün, çünkü deneyciler bunun matematiksel bir teorem olduğuna ve matematikçilerin bunun deneysel olarak belirlenmiş bir gerçek olduğuna inandığını söyledi.” adlı calcul des probabilites (2 Bas., 1912), s. 171
Dilip Sarwate

1
İşte matematiksel bir cevap. Bağımsız değişkenler X'in bir veri matrisine ve Y sütun matrisine sahipsek, Xb = Y özelliğine sahip bir b matrisi varsa, bir solnumuz vardır. Genellikle yapamayız ve kesin bir çözüme en yakın olan b'yi istiyoruz. Matematiksel olarak bu sorunu çözmek kolaydır. Y'nin X sütun uzayına yansımasıdır. Yansıtma ve dikey vb. Kavramlar metriğe bağlıdır. Her zamanki Öklid L2 metriği alışkın olduğumuz şeydir ve en küçük kareleri verir. Mse'ın en aza indirgenme özelliği, projeksiyona sahip olduğumuz gerçeğinin bir ifadesidir.
aginensky

1
Öncelikli anlaşmazlıkların Gauss ve Legendre arasında olduğunu, Legendre'nin Gauss'tan önce yayınlandığını, ancak Gauss'un Legendre'den gayrı resmi yazışmalarda olduğunu düşündüm. Ayrıca (belli belirsiz) Laplace'in ispatının üstün olduğuna karar verdim. Bunlara referans var mı?
PatrickT

31

Alternatif bir açıklama olarak, aşağıdaki sezgiyi düşünün:

Bir hatayı en aza indirirken, bu hataları nasıl cezalandıracağımıza karar vermeliyiz. Gerçekten de, hataları cezalandırmak için en basit yaklaşım bir linearly proportionalceza işlevi kullanmak olacaktır . Böyle bir fonksiyonla, ortalamadan her sapmaya, orantılı bir karşılık gelen hata verilir. İki kez kadarıyla ortalamasından nedenle sonuçlanacaktır iki kez ceza.

Daha yaygın olan yaklaşım, squared proportionalortalamadan sapmalar ile ilgili ceza arasındaki ilişkiyi göz önünde bulundurmaktır . Bu emin olacaktır ileri uzakta ortalama gelmektedir, oransal olarak daha fazla sen cezalandırılır. Bu ceza fonksiyonu kullanılarak, aykırı değerler (ortalamanın uzağında) , ortalamanın yakınındaki gözlemlerden orantılı olarak daha bilgilendirici olarak kabul edilir .

Bunun bir görselleştirmesini vermek için, ceza işlevlerini basitçe çizebilirsiniz:

MAD ve MSE ceza fonksiyonlarının karşılaştırılması

Şimdi, özellikle gerilemelerin tahmini (örneğin OLS) tahmini göz önüne alındığında, farklı ceza fonksiyonları farklı sonuçlar verecektir. linearly proportionalCeza işlevini kullanarak, regresyon aykırı değerlere squared proportionalceza işlevini kullanmaktan daha az ağırlık verir . Medyan Mutlak Sapma (MAD) bu nedenle daha sağlam bir tahminci olarak bilinir . Bu nedenle, genel olarak, sağlam bir tahmincinin veri noktalarının çoğuna iyi uyduğu ancak aykırı olanları 'görmezden geldiği' durumdur. Buna karşılık, en küçük kareler sığacak şekilde aykırı değerlere doğru daha fazla çekilir. Karşılaştırma için bir görselleştirme:

OLS ile sağlam bir tahmin edicinin karşılaştırılması

Şimdi OLS hemen hemen standart olmasına rağmen, farklı ceza fonksiyonları da kesinlikle kullanılıyor. Örnek olarak, Matlab'ın regresyonunuz için farklı bir ceza ('ağırlık' da denir) işlevini seçmenize izin veren sağlamlık işlevine bir göz atabilirsiniz . Ceza fonksiyonları arasında andrews, bisquare, cauchy, fair, huber, lojistik, ols, talwar ve welsch sayılabilir. Karşılık gelen ifadeleri web sitesinde de bulabilirsiniz.

Umarım bu ceza fonksiyonları için biraz daha sezgisel olmana yardım eder :)

Güncelleme

Eğer Matlab'ınız varsa , sıradan en küçük karelerin sağlam regresyonla karşılaştırılması için özel olarak geliştirilen Matlab'ın sağlam dümeniyle oynamayı önerebilirim :

robustdemo

Demo, bireysel noktaları sürüklemenizi ve hem sıradan en küçük kareler hem de güçlü regresyon üzerindeki etkiyi hemen görmenizi sağlar (öğretim amaçları için mükemmeldir!).


3

Başka bir cevabın açıkladığı gibi, kare hatasını en aza indirmek, mutlak hatayı en aza indirmekle aynı değildir.

Kare hatasını en aza indirmenin nedeni, büyük hataları daha iyi önlemesidir.

İşvereninizin maaş bordrosu departmanının, toplam on çalışanın her birinin istenenden 50 $ daha az ödeyeceğini söyleyin . Bu, 500 $ 'lık mutlak bir hata. Eğer departman sadece bir çalışana 500 $ daha az öderse, 500 $' lık mutlak bir hata . Ama bu kare hata anlamındadır, 250000'e karşı 25000'dir.

Kare hatası kullanmak her zaman daha iyi değildir. Veri toplama hatası nedeniyle aşırı uç noktaya sahip bir veri kümeniz varsa, kare hatayı en aza indirgemek mutlak hatayı en aza indirmekten çok daha fazlası için fitili aşırı uç noktaya doğru çeker. Olduğu söyleniyor, -en-genellikle-kare hata kullanmak daha iyidir.


4
Kare hatasını en aza indirmenin nedeni, büyük hataları daha iyi önlemesidir. - öyleyse neden küplenmedin?
Daniel Earwicker

@DanielEarwicker Cubed, yanlış yönde çıkarma işleminde hata yapar. Bu yüzden kesin bir kuş kafesi hatası olması ya da güçlere bile bağlı kalması gerekirdi. Daha yüksek güçler yerine karenin kullanılmasının gerçekten "iyi" bir nedeni yoktur (veya gerçekten de polinom dışı ceza işlevleri). Hesaplaması kolay, en aza indirmesi kolay ve işi yapıyor.
Atsby

1
Tabii ki daha da yüksek bir güç söylemeliydim! :)
Daniel Earwicker 18:15

Bunun (şu anda) hiçbir önemi yoktur, ancak bu şu anda (şu anda) 15 oy (yani aykırıların daha fazla etkiye sahip olduğu) cevabının aynısı değil mi? Yanlış olduğu için veya bazı önemli bilgileri kaçırdığı için oy almıyor mu? Ya da güzel grafiklere sahip olmadığı için? ;-)
Darren Cook

@DarrenCook İstatistiklere olan "modern" yaklaşımın OLS'ye göre MAD'yi tercih ettiğinden şüpheleniyorum ve kare hataların "genellikle" olduğunu öne sürüyorum, daha iyi sonuçlar verdi.
Atsby

2

Teoride her türlü kayıp fonksiyonunu kullanabilirsiniz. Mutlak ve karesel kayıp fonksiyonları, sadece en popüler ve en sezgisel kayıp fonksiyonları olur. Bu wikipedia girişine göre,

Yaygın bir örnek “konum” tahminini içerir. Tipik istatistiksel varsayımlar altında, ortalama veya ortalama, kare-hata kaybı fonksiyonu altında beklenen tahmini kaybı en aza indiren yeri tahmin etmek için istatistiğidir; medyan, mutlak fark kaybı fonksiyonu altında yaşanan beklenen kaybı en aza indiren tahmin edicidir. Yine de farklı tahmin ediciler, diğer daha az yaygın koşullar altında en uygun durumda olacaktır.

Wikipedia girişinde de açıklandığı gibi, kayıp işlevlerinin seçimi, hedeflediğiniz nesneden sapmalara nasıl değer verdiğinize bağlıdır. Tüm sapmalar sizin için ne olursa olsun eşit derecede kötüyse, mutlak kayıp işlevini kullanabilirsiniz. Eğer sapmalar sizin için uzaklaştıkça daha da kötüleşirseniz, en uygun olan sizsiniz demektir ve sapmanın pozitif mi yoksa negatif mi olduğu umrunda değilseniz, kare kaybı işlevi en kolay seçimdir. Fakat yukarıdaki kayıp tanımlarından hiçbiri elinizde sorununuza uymuyorsa, örneğin küçük sapmalar sizin için büyük sapmalardan daha kötü olduğu için farklı bir kayıp fonksiyonu seçebilir ve minimize etme problemini çözmeyi deneyebilirsiniz. Bununla birlikte, çözümünüzün istatistiksel özelliklerini değerlendirmek zor olabilir.


Küçük bir detay: "Eğer bütün sapmalar sizin için ne olursa olsun sizin için eşit derecede kötüyse ..": MAD fonksiyonu hataları orantılı olarak doğrusallaştırır. Bu nedenle hatalar 'eşit derecede fena değil' fakat 'orantılı olarak fena' iki kat daha fazla ceza alır.
Jean-Paul

@ Jean-Paul: Haklısın. Öyle demek istedim. "Eşit derecede kötü" ile söylemek istediğim, MAD'in gradyanının sabittir, MSE'nin gradyanı ise hata ile doğrusal olarak büyür. Dolayısıyla, iki hata arasındaki fark sabitse, optimum olandan ne kadar uzakta olursanız olun, aynı durum MSE için de geçerli değildir. Umarım, bu söylemek istediklerimi biraz daha anlaşılır hale getirir.
kristjan

-1

Kısa cevaplar

  1. Hayır
  2. ortalamanın medyandan daha ilginç istatistiksel özellikleri var

10
Eğer “daha ​​ilginç istatistiksel özelliklere” sahip olabilseydiniz çok iyi olurdu.
Momo
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.