Yanıtlar:
Bu soru oldukça eski ama aslında burada görünmeyen bir cevabım var ve başka bir güç yanlışken (bazı makul varsayımlar altında) kare hatasının doğru olduğu konusunda zorlayıcı bir neden var.
Bazı veriler var ki ve doğrusal (ya da) fonksiyonu bulmak istiyoruz f en iyi yoğunluk ihtimali bu anlamda, veri tahmin s f ( D ) , bu verileri gözlemlemek için ilgili olarak en yüksek olmalıdır f (bunamaksimum olabilirlik tahmini ). Bizim veri tarafından verilen varsayarsak + standart sapma olan bir normal dağılım hata terimi σ , daha sonra p f ( D ) = N Π i = 1 1 Bu1'eeşittir
X ^ 2 dışındaki normları en aza indirmeye çalışmamanız için hiçbir neden yoktur, örneğin kantil regresyon üzerine yazılmış tüm kitaplar olmuştur, örneğin, aşağı yukarı en aza indirgeyen | x | medyan ile çalışıyorsanız. Bunu yapmak genellikle daha zordur ve hata modeline bağlı olarak iyi tahmin ediciler vermeyebilir (bunun bağlamda düşük varyans veya tarafsız veya düşük MSE tahmin edicileri anlamına gelmesine bağlı olarak).
Tam sayı anlarını gerçek sayı değerli anlara tercih etmemize gelince, asıl neden gerçek sayıların tamsayı güçlerinin her zaman gerçek sayılara yol açmasına rağmen, negatif gerçek sayıların tamsayı olmayan güçlerinin karmaşık sayılar oluşturması, bu nedenle mutlak bir değer. Diğer bir deyişle, gerçek değerli rastgele değişkenin 3. momenti gerçek olsa da, 3.2. Moment mutlaka gerçek değildir ve dolayısıyla yorumlama problemlerine neden olur.
Ondan başka...
Tanımlayıcıların içinde kalan varyansı en aza indirmeye çalışıyoruz. Neden varyans? Bu soruyu okuyun ; bu aynı zamanda hataların normal olarak dağıtıldığı (çoğunlukla sessiz) varsayımı ile birlikte gelir.
Uzantı:
İki ek argüman:
Varyanslar için, ilişkisiz örnekler için varyansların toplamının toplam varyansına eşit olduğu bu güzel "yasaya" sahibiz. Hatanın durumla ilişkili olmadığını varsayarsak, karelerin kalıntılarını en aza indirgemek açıklanmış varyansı en üst düzeye çıkarmak için doğrudan işe yarayacaktır, belki de o kadar iyi olmayan ama yine de popüler bir kalite ölçüsüdür.
Bir hatanın normalliğini varsayarsak, en küçük kareler hata tahmincisi maksimum olasılıktır.
Sıradan en küçük karelerde, (A'A) ^ (- 1) x = A'b'ye çözüm, kare hata kaybını en aza indirir ve maksimum olabilirlik çözümüdür.
Yani, büyük ölçüde çünkü bu tarihsel durumda matematik kolaydı.
Ancak genellikle insanlar üstel, lojistik, cauchy, laplace, huber, vb. Gibi birçok farklı kayıp fonksiyonunu en aza indirir . şimdi daha popüler olmaya başladılar.