Bir modele uyurken neden genellikle kare hataların (SSE) toplamını en aza indirmeyi seçiyoruz?

23

Soru çok basittir: neden verilerimize bir modele uymaya çalıştığımız zaman, doğrusal ya da doğrusal olmayan, genellikle model parametresi için tahmin edicimizi elde etmek için hata karelerinin toplamını en aza indirmeye çalışıyoruz? Neden en aza indirmek için başka bir amaç işlevi seçmiyorsunuz? Teknik nedenlerden dolayı ikinci dereceden işlevin diğer bazı işlevlerden daha iyi olduğunu biliyorum, örneğin mutlak sapma toplamı. Ancak bu hala çok ikna edici bir cevap değil. Bu teknik neden dışında, neden insanlar özellikle bu 'Öklid tipi' mesafe fonksiyonunu tercih ediyorlar? Bunun için özel bir anlam veya yorum var mı?

Düşüncemin arkasındaki mantık şudur:

Bir veri kümeniz olduğunda, ilk önce bir dizi işlevsel veya dağıtım varsayımı yaparak modelinizi hazırlarsınız (örneğin, bir an şartı ama tüm dağıtımı değil). Modelinizde bazı parametreler var (parametrik bir model olduğunu varsayalım), o zaman bu parametreleri tutarlı bir şekilde tahmin etmenin bir yolunu bulmanız gerekir ve umarım, tahmininizin düşük varyansı ve bazı hoş özellikleri olacaktır. İster SSE'yi, ister LAD'yi veya başka bir objektif işlevi en aza indirirseniz, tutarlı bir tahminci elde etmenin sadece farklı yöntemler olduğunu düşünüyorum. Bu mantığı takiben, insanların en az kareyi kullanması gerektiğini düşünmeliyim 1) modelin tutarlı bir tahmincisi üretiyor) 1) bilmediğim başka bir şey.

Ekonometride, lineer regresyon modelinde, hata terimlerinin yordayıcılar üzerinde ortalama koşullandırma olduğunu varsayarsak ve homoscedastisite ve hataların birbirleriyle ilişkisiz olduğunu varsayarsak, kare hatanın toplamını en aza indirmenin size modelinizin tutarlı bir tahmincisini vereceğini biliyoruz. parametreler ve Gauss-Markov teoremi ile bu tahmin edici BLUE'dur. Bu nedenle, SSE olmayan başka bir objektif işlevi en aza indirmeyi seçerseniz, model parametrenizin tutarlı bir tahmincisini elde edeceğinizin garantisi yoktur. Anlayışım doğru mu? Eğer doğruysa, o zaman başka bir objektif işlev yerine SSE'nin en aza indirgenmesi tutarlılık ile haklı gösterilebilir, bu aslında, ikinci dereceden işlevin daha iyi olduğunu söylemekten daha iyidir.

Pratikte, insanların ilk önce tüm modeli açıkça belirtmeden doğrudan kare hatalarının toplamını en aza indirdiği, örneğin, hata terimindeki dağıtım varsayımlarını (moment varsayımları) aslında birçok durumu gördüm. Sonra bu bana öyle geliyor ki, bu yöntemin kullanıcısı sadece verinin 'modele' ne kadar yaklaştığını görmek istiyor (model varsayımları muhtemelen eksik olduğu için tırnak işareti kullanıyorum) kare mesafe işlevi açısından.

İlgili bir soru (bu web sitesiyle de ilgilidir): Neden farklı modelleri çapraz doğrulama kullanarak karşılaştırmaya çalıştığımızda, SSE'yi yine de değerlendirme kriteri olarak kullanıyor muyuz? yani, en düşük SSE'ye sahip modeli seçin? Neden başka bir kriter değil?

econometrics least-squares

— KevinKim
kaynak

İlgili: stats.stackexchange.com/questions/147001

— amip

14

Sorunuz sitedeki bir dizi başka soruya benzese de, bu sorunun yönleri (tutarlılık konusundaki vurgunuz gibi) beni yinelemeye yeterince yakın olmadıklarını düşündürüyor.

Neden en aza indirmek için başka bir amaç işlevi seçmiyorsunuz?

Neden olmasın? Hedefiniz en küçük karelerden farklıysa, hedefinize değinmelisiniz!

Bununla birlikte, en küçük kareler çok sayıda hoş özelliğe sahiptir (en azından, tahmin araçlarına , birçok insanın istediği ve doğrudan yeni fikirler öğretirken veya uygulamaya çalışırken açık bir seçim yapan bir basitlik).

Ayrıca, çoğu durumda insanlar net bir amaç işlevine sahip değildir, bu yüzden kolayca ulaşılabilir ve geniş bir şekilde anlaşılmış olanı seçmenin bir avantajı vardır.

Bununla birlikte, en küçük kareler aynı zamanda daha az iyi özelliklere sahiptir (örneğin aykırılıklara karşı duyarlılık) - bu nedenle bazen insanlar daha sağlam bir ölçüt tercih eder.

kare hata toplamını en aza indirgeyecek olursanız, model parametrelerinizi tutarlı olarak tahmin edersiniz

En küçük kareler tutarlılık için bir gereklilik değildir . Tutarlılık çok yüksek bir engel değildir - pek çok tahmin edici tutarlı olacaktır. İnsanların pratikte kullandıkları neredeyse tahmin ediciler tutarlıdır.

ve Gauss-Markov teoremi tarafından, bu tahmin edici BLUE'dur.

Ancak tüm doğrusal tahmin edicilerin kötü olduğu durumlarda (aşırı ağır kuyruklarda olduğu gibi), en iyisinde çok fazla avantaj yoktur.

SSE olmayan başka bir objektif işlevi en aza indirmeyi seçerseniz, model parametrenizin tutarlı bir tahmincisini elde edeceğinizin garantisi yoktur. Anlayışım doğru mu?

Tutarlı tahmin ediciler bulmak zor değil, bu yüzden hayır, en küçük karelerin özellikle iyi bir gerekçesi değil.

Neden farklı modelleri çapraz doğrulama kullanarak karşılaştırmaya çalıştığımız zaman yine SSE'yi değerlendirme kriteri olarak kullanıyoruz? [...] Neden diğer kriter değil?

Hedefiniz başka bir şeyden daha iyi yansıtılıyorsa neden olmasın?

En küçük karelerden başka nesnel işlevleri kullanan insan eksikliği yoktur. M-tahmininde, en azından kesilmiş tahmin edicilere, kuantil regresyonda ve insanlar LINEX kayıp fonksiyonlarını kullandıklarında, sadece birkaçını belirtmek için ortaya çıkar.

Bir veri setine sahip olduğunuzda, ilk önce modelinizi oluşturduğunuzu, yani bir dizi işlevsel veya dağıtım varsayımı yaptığınızı düşünüyordum. Modelinizde bazı parametreler var (parametrik bir model olduğunu varsayalım),

Muhtemelen, işlevsel varsayımların parametreleri, tahmin etmeye çalıştığınız şeydir - bu durumda, işlevsel varsayımlar etrafınızdaki en az kareler (veya başka bir şey) ; kriteri belirlemezler, kriterin tahmin ettiği şeydir.

Öte yandan, eğer bir dağıtım varsayımınız varsa, o zaman daha uygun bir objektif fonksiyon hakkında çok fazla bilginiz var - büyük olasılıkla, örneğin, büyük numunelerde hangi parametrelerin verimli tahminlerini almak isteyeceksiniz Sizi MLE'ye yönlendirme eğilimindedir (bazı durumlarda sağlam bir çerçeveye gömülmüş olabilir).

o zaman tutarlı bir şekilde bu parametreleri tahmin etmenin bir yolunu bulmanız gerekir. SSE veya LAD'yi veya başka bir amaç fonksiyonunu minimize edip etmediğiniz,

LAD, nicel bir tahmin edicidir. En küçük kareler gibi olması gerektiği gibi tahmin etmesi gereken koşulda tahmin etmesi gereken parametrenin tutarlı bir tahmincisidir. Eğer bakarsak en küçük kareler, diğer pek çok ortak tahmin için sonuçlar tekabül var için (eğer tutarlılık ne gösterecek. Eğer, bir tahmincisi yaygın tartışılıyor görürseniz İnsanlar nadiren bu kadar tutarsız tahminlerini kullanır sürece onların tutarsızlık söz ediyoruz, neredeyse var kesinlikle tutarlı. *)

* Tutarlılık mutlaka gerekli bir özellik değildir. Sonuçta, numunem için, belirli bir örneklem büyüklüğüne sahibim, sonsuzluğa eğilimli örneklem büyüklükleri dizisine değil. En özellikler nelerdir konular ı var, bazı sonsuzca daha bunu yok ve asla göremeyeceğiz . Ancak tutarsızlığımız olduğunda çok daha fazla dikkat gerekir - = 20'de iyi bir tahmincimiz olabilir, ancak = 2000'de korkunç olabilir ; Tutarlı tahmin ediciler kullanmak istiyorsak, bir anlamda, daha fazla çaba gösterilmelidir. $n$ $n$ $n$ $n$

Bir üstelin ortalamasını tahmin etmek için LAD kullanıyorsanız, bunun için tutarlı olmayacak (tahmininin önemsiz bir ölçeklendirmesi olur) - ancak üstelin ortancasını tahmin etmek için en küçük kareleri kullanırsanız aynı belirteçle bunun için tutarlı olmayacak (ve yine önemsiz bir yeniden ölçeklendirme bunu düzeltir).

— Glen_b -Reinstate Monica
kaynak

Sanırım endişelerimi açıkça ifade etmedim. Bir veri setine sahip olduğunuzda, ilk önce modelinizi oluşturduğunuzu, yani bir dizi işlevsel veya dağıtım varsayımı yaptığınızı düşünüyordum. Modelinizde bazı parametreler var (parametrik bir model olduğunu varsayalım), o zaman bu parametreleri tutarlı bir şekilde tahmin etmenin bir yolunu bulmanız gerekir. İster SSE, gerekse LAD veya başka bir amaç işlevini en aza indirmiş olsanız da, tahmin ediciyi elde etmenin farklı yöntemleri olduğunu düşünüyorum. Bu mantığı takiben, insanların en az kareyi kullanması gerektiğini

— düşünmeliyim

Muhtemelen, işlevsel varsayımların parametreleri, tahmin etmeye çalıştığınız şeydir - bu durumda, işlevsel varsayımlar etrafınızdaki en az kareler (veya başka bir şey); kriteri belirlemezler. Öte yandan, eğer bir dağıtım varsayımınız varsa, o zaman daha uygun bir objektif fonksiyon hakkında çok fazla bilgiye sahipsiniz - büyük olasılıkla, örneğin, büyük numunelerde hangi parametrelerin verimli tahminlerini almak isteyeceksiniz Sizi MLE'ye yönlendirme eğilimindedir (bazı durumlarda sağlam bir çerçeveye gömülmüş olabilir).

— Glen_b

Bu cevap benim zihnime uyuyor. Ama hala bir sorum var, 'kriteri belirlemedi' derken neyi kastediyorsunuz? Bu, örneğin, ekonometrik 101'de lineer regresyonda, fonksiyonel (dağılım yok) varsayımı altında, tutarlı bir tahmin ediciyi elde etmek için, ols kullanmanız gerekir; oradan tutarlı tahmin ediciyi türetme garantisi?

— KevinKim

"Belirleme" konulu - cevabımı genişletmeme izin verin. Tutarlılık üzerine: Cevabımda tersini belirttim. Tekrar söyleyeyim: en küçük kareler tutarlılık için bir gereklilik değildir . Bu, az önce bahsettiğiniz durumu içerir; tutarlı olacak alternatif tahmin edicilerin sonsuzluğu vardır. İnsanların pratikte kullandıkları neredeyse tahmin ediciler tutarlıdır. Daha açık olması için cevabımı düzenleyeceğim.

— Glen_b -Reinstate Monica

güncellenmiş cevabınız için, son paragraf, bu nedenle bazı modeller için, model parametreleriniz için tutarlı parametreler üretmeyecek bazı yöntemler vardır, ancak bu yöntemi yine de uygulayabilirsiniz ve compter size bazı sayılar verecektir, değil mi? Öyleyse, bir insanın oluşturduğu bir model için, modeldeki parametrelerin tahmin edicilerini türetmek için, insanların teknik güzel özelliklerine dayanarak SADECE optimize etmek için keyfi bir işlev seçemeyeceğini söyleyebilir miyim?

— KevinKim

5

Bir istatistik sorusu sordunuz ve umarım kontrol sistemi mühendisimin cevabı, aydınlatıcı olmak için yeterince farklı bir yönden bıçaklar.

Kontrol sistemi mühendisliği için "kanonik" bilgi akışı formu: görüntü tanımını buraya girin

"R" referans değeri içindir. Bir "e" hatası üretmek için "y" çıkışının bir "F" dönüşümü ile toplanır. Bu hata, "C" kontrol aktarma işlevi tarafından "P" tesisi için bir kontrol girişine dönüştürülen bir kontrol cihazı girişidir. İsteğe bağlı bitkilere uygulanacak kadar genel olması amaçlanmıştır. "Tesis", seyir kontrolü için bir otomobil motoru veya ters bir sarkaçın giriş açısı olabilir.

Aşağıdaki tartışmaya uygun bir fenomenoloji ile bilinen bir transfer işlevine sahip bir tesisiniz olduğunu, mevcut bir durumu ve istenen bir son durumu diyelim. ( Tablo 2.1, sf68 ) Sistemin, farklı girdilere sahip, başlangıçtan son duruma geçmek için geçebileceği sonsuz sayıda benzersiz yol vardır. Ders kitabı kontrol mühendisi "optimal yaklaşımlar", zaman optimalini ( en kısa zaman / patlama-patlama ), en uygun mesafeyi (en kısa yol), en uygun kuvveti (en düşük maksimum giriş büyüklüğü) ve enerji optimalini (minimum toplam enerji girişi) içerir.

Sonsuz sayıda yol olduğu gibi, her biri bu yollardan birini seçen sonsuz sayıda "iyimser" vardır. Bir yol seçip bunun en iyisi olduğunu söylerseniz o zaman dolaylı olarak bir “iyilik ölçüsü” veya “iyilik ölçüsü” seçiyorsunuzdur.

Kişisel fikrime göre, L-2 normları (örneğin, enerji optimal, en küçük kare hatası) gibi insanlar sanırım, çünkü basit, açıklaması kolay, uygulaması kolay, küçük hatalara karşı daha büyük hatalara karşı daha fazla çalışma yapma özelliği var. ve sıfır sapma ile bırakır. Varyansın en aza indirildiği ve yanlılığın kısıtlandığı ama sıfır olmadığı h-sonsuz normları göz önünde bulundurun. Oldukça faydalı olabilirler, ancak tarif etmesi daha karmaşık ve kodlaması daha karmaşıktır.

Bence L2-normu, yani enerji en aza indirgeyen optimal yol, yani en küçük karelere uyuyor, kolay ve tembel anlamda "daha büyük hataların daha kötü ve daha küçük hataların daha az kötü" olduğu varsayımına uyuyor. Kelimenin tam anlamıyla, bunu formüle etmek için sınırsız sayıda algoritmik yol vardır, ancak kare hata en uygunlarından biridir. Sadece cebir gerektirir, bu yüzden daha fazla insan bunu anlayabilir. (Popüler) polinom uzayda çalışır. Enerji optimali algılanan dünyamızı oluşturan fiziğin büyük kısmı ile tutarlıdır, bu yüzden "tanıdık geliyor". Hesaplamak hızlı ve hafızada çok fazla korkunç değil.

Daha fazla zaman alırsam, resimler, kodlar veya bibliyografik referanslar koymak isterim.

— EngrStudent - Monica'yı yeniden kur
kaynak

1

$SSE$ $SSE$ $R^2$ $SST$

{R,}^{2} = 1 - \frac{S S E}{S S T}

$R^2 = 1 - \frac{SSE}{SST}$

$R^2$ $R^2$ $RMSE$

$R^2$ $R^2$ $SSE$ $SSE$ $PRESS$ , gönderinin sonunda sorunuzla alakalı olanları.

$SSE$

— Aleksandr Blekh
kaynak

2

R^{2}

$R^2$

R^{2}

$R^2$

R^{2}

$R^2$

R^{2}

$R^2$

R^{2}

$R^2$

R^{2}

$R^2$

0

En küçük kareler yerine maksimum hatayı minimize etmeye de bakabilirsiniz. Konuyla ilgili geniş bir literatür var. Bir arama sözcüğü için, "Chebyshev" polinomlarını da heceleştirilmiş "Tchebechev" i deneyin.

— David F Mayer
kaynak

1

Maks, bir L-sonsuz normudur. Nutonian / Formulize / Eureqa'ya bakarsanız, çeyrekler arası mutlak hata, menteşe kaybı hatası, ROC-AUC ve imzalı fark dahil olmak üzere güzel bir fonksiyonel fonksiyonel hayvanat bahçesi vardır (hata formları). formulize.nutonian.com/documentation/eureqa/general-reference/...

— EngrStudent - Eski Monica

0

İnsanların kareleri kullandığı görülüyor, çünkü Lineer Cebir dünyasında bulunmasına izin veriyor ve dışbükey optimizasyon gibi daha karmaşık olan diğer şeylere dokunmuyor, bu da daha güçlü, ancak hoş kapalı form çözümleri olmadan çözücülere yöneliyor.

Ayrıca, dışbükey optimizasyon adı olan bu matematik dünyasındaki fikir çok fazla yayılmadı.

“... Niçin kare kareleri önemsiyoruz. Dürüst olmak gerekirse, onu analiz edebiliriz ... Enerjiye karşılık geldiğini ve satın aldıklarını söylerseniz hızlı bir şekilde ilerleyin ....” - https: / /youtu.be/l1X4tOoIHYo?t=1416 , EE263, L8, 23:36.

Ayrıca burada Stephen P. Boyd 2008'de insanların çekiç ve geçici kullandıklarını açıklar: L20, 01:05:15 - https://youtu.be/qoCa7kMLXNg?t=3916

— bruziuz
kaynak

0

Bir yandan not:

Hedef değişkenimizin t değerleri üzerindeki belirsizliği hesaba kattığımızda, t'nin olasılık dağılımını

p (t | x, w, β) = N- (t | y (x, w), β^{- 1})

$p(t|x,w,\beta) = \mathbb{N}(t|y(x,\textbf{w}),\beta^{-1})$

{x, t}

$\{\textbf{x}, \textbf{t}\}$

w

$\textbf{w}$

p (t | x, w, β) = Π_{n = 1}^{N-} N- (t_{n} | y (x_{n}, w), β^{- 1}) .

$p(\textbf{t}|\textbf{x}, \textbf{w}, \beta) = \prod_{n=1}^ {N}\mathbb{N}(t_n|y(x_n, \textbf{w}),\beta^{-1}).$

- \frac{β}{2} Σ_{n = 1}^{N-} {y (x_{n}, w) - t_{n}}^{2} + \frac{N-}{2} l n β - \frac{N-}{2} l n (2 π)

$-\frac{\beta}{2}\sum_{n=1}^{N}\{y(x_n, \textbf{w})-t_n\}^2 + \frac{N}{2}ln\beta-\frac{N}{2}ln(2\pi)$

w

$\textbf{w}$

β

$\beta$

- \frac{1}{2} Σ_{n = 1}^{N-} {y (x_{n}, w) - t_{n}}^{2} .

$-\frac{1}{2}\sum_{n=1}^{N}\{y(x_n, \textbf{w})-t_n\}^2.$

— timm
kaynak