Soru çok basittir: neden verilerimize bir modele uymaya çalıştığımız zaman, doğrusal ya da doğrusal olmayan, genellikle model parametresi için tahmin edicimizi elde etmek için hata karelerinin toplamını en aza indirmeye çalışıyoruz? Neden en aza indirmek için başka bir amaç işlevi seçmiyorsunuz? Teknik nedenlerden dolayı ikinci dereceden işlevin diğer bazı işlevlerden daha iyi olduğunu biliyorum, örneğin mutlak sapma toplamı. Ancak bu hala çok ikna edici bir cevap değil. Bu teknik neden dışında, neden insanlar özellikle bu 'Öklid tipi' mesafe fonksiyonunu tercih ediyorlar? Bunun için özel bir anlam veya yorum var mı?
Düşüncemin arkasındaki mantık şudur:
Bir veri kümeniz olduğunda, ilk önce bir dizi işlevsel veya dağıtım varsayımı yaparak modelinizi hazırlarsınız (örneğin, bir an şartı ama tüm dağıtımı değil). Modelinizde bazı parametreler var (parametrik bir model olduğunu varsayalım), o zaman bu parametreleri tutarlı bir şekilde tahmin etmenin bir yolunu bulmanız gerekir ve umarım, tahmininizin düşük varyansı ve bazı hoş özellikleri olacaktır. İster SSE'yi, ister LAD'yi veya başka bir objektif işlevi en aza indirirseniz, tutarlı bir tahminci elde etmenin sadece farklı yöntemler olduğunu düşünüyorum. Bu mantığı takiben, insanların en az kareyi kullanması gerektiğini düşünmeliyim 1) modelin tutarlı bir tahmincisi üretiyor) 1) bilmediğim başka bir şey.
Ekonometride, lineer regresyon modelinde, hata terimlerinin yordayıcılar üzerinde ortalama koşullandırma olduğunu varsayarsak ve homoscedastisite ve hataların birbirleriyle ilişkisiz olduğunu varsayarsak, kare hatanın toplamını en aza indirmenin size modelinizin tutarlı bir tahmincisini vereceğini biliyoruz. parametreler ve Gauss-Markov teoremi ile bu tahmin edici BLUE'dur. Bu nedenle, SSE olmayan başka bir objektif işlevi en aza indirmeyi seçerseniz, model parametrenizin tutarlı bir tahmincisini elde edeceğinizin garantisi yoktur. Anlayışım doğru mu? Eğer doğruysa, o zaman başka bir objektif işlev yerine SSE'nin en aza indirgenmesi tutarlılık ile haklı gösterilebilir, bu aslında, ikinci dereceden işlevin daha iyi olduğunu söylemekten daha iyidir.
Pratikte, insanların ilk önce tüm modeli açıkça belirtmeden doğrudan kare hatalarının toplamını en aza indirdiği, örneğin, hata terimindeki dağıtım varsayımlarını (moment varsayımları) aslında birçok durumu gördüm. Sonra bu bana öyle geliyor ki, bu yöntemin kullanıcısı sadece verinin 'modele' ne kadar yaklaştığını görmek istiyor (model varsayımları muhtemelen eksik olduğu için tırnak işareti kullanıyorum) kare mesafe işlevi açısından.
İlgili bir soru (bu web sitesiyle de ilgilidir): Neden farklı modelleri çapraz doğrulama kullanarak karşılaştırmaya çalıştığımızda, SSE'yi yine de değerlendirme kriteri olarak kullanıyor muyuz? yani, en düşük SSE'ye sahip modeli seçin? Neden başka bir kriter değil?