En küçük kareler durumunda doğal sayılara karşı önyargı


14

Neden minimize etmek x^2yerine minimize etmeye çalışıyoruz |x|^1.95veya |x|^2.05. Sayının tam olarak iki olması için nedenler var mı yoksa sadece matematiği basitleştirme avantajına sahip bir kural mı?

Yanıtlar:


5

Bu soru oldukça eski ama aslında burada görünmeyen bir cevabım var ve başka bir güç yanlışken (bazı makul varsayımlar altında) kare hatasının doğru olduğu konusunda zorlayıcı bir neden var.

Bazı veriler var ki ve doğrusal (ya da) fonksiyonu bulmak istiyoruz f en iyi yoğunluk ihtimali bu anlamda, veri tahmin s f ( D ) , bu verileri gözlemlemek için ilgili olarak en yüksek olmalıdır f (bunaD=(x1,y1),(x2,y2),...,(xn,yn)fpf(D)fmaksimum olabilirlik tahmini ). Bizim veri tarafından verilen varsayarsak + standart sapma olan bir normal dağılım hata terimi σ , daha sonra p f ( D ) = N Π i = 1 1fσ Bu1'eeşittir

pf(D)=i=1n1σ2πe(yif(xi))22σ2.
Böylecepf(D) 'ninen üst düzeye çıkarılması, n i = 1 (yi-f(xi))2, yani kare şeklinde hata terimlerinin toplamınınen aza indirilmesiyle gerçekleştirilir.
1σn(2π)n/2e12σ2i=1n(yif(xi))2.
pf(D)i=1n(yif(xi))2

Bu dairesel görünüyor, neden normal olarak dağıtılmış bir hata terimi varsaymalısınız?
Joe

@Joe Her zaman olmamalı, ancak hata terimi hakkında bildiğiniz tek şey ortalama 0 ve sınırlı bir mutlak değere sahip olması, o zaman maksimum entropi varsayımıdır, böylece bilinmeyen ne varsa aslında hata fonksiyonu. Hata dağılımı hakkında ek bilgi varsa, bunu kullanabileceğinizi ve daha doğru bir maksimum olabilirlik tahmincisi bulabileceğinizi varsayalım.

"Eğer hata terimi hakkında bildiğiniz tek şey ortalama 0 ve sonlu bir beklenen mutlak değere sahip olmasıdır, o zaman bu maksimum entropi varsayımıdır" - gördüğüm maksimum entropi dağılımlarının her bir türevi Laplace dağılımını (bilinen) sonlu beklenen mutlak değer için maksimum dağılım, Gauss ise (bilinen) sonlu beklenen kare mutlak değer için maksimum değerdir, bir örnek olarak bakın stats.stackexchange.com/questions/82410/… katılmayan alıntılarınız var mı ?
Joe

Biliyor musun, bilmiyorum. Haklı olduğunu varsayacağım. (Gerçi bazı nedenlerden dolayı

14

X ^ 2 dışındaki normları en aza indirmeye çalışmamanız için hiçbir neden yoktur, örneğin kantil regresyon üzerine yazılmış tüm kitaplar olmuştur, örneğin, aşağı yukarı en aza indirgeyen | x | medyan ile çalışıyorsanız. Bunu yapmak genellikle daha zordur ve hata modeline bağlı olarak iyi tahmin ediciler vermeyebilir (bunun bağlamda düşük varyans veya tarafsız veya düşük MSE tahmin edicileri anlamına gelmesine bağlı olarak).

Tam sayı anlarını gerçek sayı değerli anlara tercih etmemize gelince, asıl neden gerçek sayıların tamsayı güçlerinin her zaman gerçek sayılara yol açmasına rağmen, negatif gerçek sayıların tamsayı olmayan güçlerinin karmaşık sayılar oluşturması, bu nedenle mutlak bir değer. Diğer bir deyişle, gerçek değerli rastgele değişkenin 3. momenti gerçek olsa da, 3.2. Moment mutlaka gerçek değildir ve dolayısıyla yorumlama problemlerine neden olur.

Ondan başka...

  1. Rastgele değişkenlerin tamsayı momentleri için analitik ifadelerin bulunması, fonksiyonlar veya başka bir yöntem üreterek, gerçek değerli anlardan çok daha kolaydır. Bunları en aza indirgemek için yöntemler yazmak daha kolaydır.
  2. Tamsayı momentlerin kullanımı, gerçek değerli anlardan daha izlenebilir ifadelere yol açar.
  3. Araştırmak ilginç olsa da (örneğin) X'in mutlak değerinin 1.95. anının (örneğin X'in 2. anından daha iyi uyum özellikleri sağlayabilmesi için zorlayıcı bir neden düşünemiyorum)
  4. L2 normuna (veya kare hatasına) özgü olarak, nokta ürünleri aracılığıyla yazılabilir, bu da hesaplama hızında büyük iyileşmelere yol açabilir. Aynı zamanda Hilbert alanı olan tek Lp alanı, sahip olması güzel bir özellik.

8

Tanımlayıcıların içinde kalan varyansı en aza indirmeye çalışıyoruz. Neden varyans? Bu soruyu okuyun ; bu aynı zamanda hataların normal olarak dağıtıldığı (çoğunlukla sessiz) varsayımı ile birlikte gelir.

Uzantı:
İki ek argüman:

  1. Varyanslar için, ilişkisiz örnekler için varyansların toplamının toplam varyansına eşit olduğu bu güzel "yasaya" sahibiz. Hatanın durumla ilişkili olmadığını varsayarsak, karelerin kalıntılarını en aza indirgemek açıklanmış varyansı en üst düzeye çıkarmak için doğrudan işe yarayacaktır, belki de o kadar iyi olmayan ama yine de popüler bir kalite ölçüsüdür.

  2. Bir hatanın normalliğini varsayarsak, en küçük kareler hata tahmincisi maksimum olasılıktır.


1
Bu diğer konudaki cevap, 2'nin neden 2'ye çok yakın ancak doğal sayı olmayan diğer değerlerden daha iyi bir değer olduğunu açıklamıyor.
Christian

Bence öyle; hala cevabı uzatmaya çalışacağım.

Bu nedenle, hatalar normal olarak dağıtılmazsa, örneğin başka bir Lévy-kararlı dağıtımına göre, 2'den farklı bir üs kullanmak işe yarayabilir mi?
Raskolnikov

Unutmayın, normal dağılım bilinen varyans için en "dikkatli" olanıdır (çünkü sabit varyanslı tüm yoğunluklarda maksimum entropi vardır). Veriler tarafından söylenecek en fazla şey bırakılır. Ya da başka bir deyişle, aynı varyansa sahip "büyük" veri kümeleri için, normalden farklı bir dağıtım elde etmek için " inanılmaz " denemek zorundasınız " .
probabilityislogic

8

Sıradan en küçük karelerde, (A'A) ^ (- 1) x = A'b'ye çözüm, kare hata kaybını en aza indirir ve maksimum olabilirlik çözümüdür.

Yani, büyük ölçüde çünkü bu tarihsel durumda matematik kolaydı.

Ancak genellikle insanlar üstel, lojistik, cauchy, laplace, huber, vb. Gibi birçok farklı kayıp fonksiyonunu en aza indirir . şimdi daha popüler olmaya başladılar.


1
Kayıp fikrini tanıtmak için +1. (Fakat "üstel" değil, dağılımlar , kayıp fonksiyonları değil mi?) Tarihsel olarak doğrusal kayıp 1750'de resmi olarak geliştirilen ilk yaklaşımdı ve bunun için basit bir geometrik çözüm vardı. Laplace'ın bu ve 1809 yayında çift üstel dağılım arasındaki ilişkiyi kurduğuna inanıyorum (bunun için MLE, kare hatası değil mutlak hatayı en aza indirecektir). Dolayısıyla, kare kaybı, MLE'ye sahip olma ve matematiksel olarak kolay olma kriterleri ile benzersiz bir şekilde ayırt edilmez.
whuber

İkisi de farklı bağlamlarda dağılım ve kayıp işlevleridir.
Joe

Önceki cevaba çok hızlı girmeye bastım - üstel kayıp, genişleme ile yaygın olarak ilişkilidir (bkz. Friedman Hastie ve Tibshirani'nin İstatistiksel Artırma İstatistiksel Görünümü), bir dağıtımdan ziyade bir kayıptır, lojistik regresyon log kaybına karşılık gelir, laplace bir dağıtımdır, ancak mutlak değer kaybına karşılık gelir - bu yüzden çoğunlukla son derece özensiz davrandım, işaret ettiğiniz için teşekkürler. Ancak L1 kaybının geometrik bir çözümü olsa da, analitik olarak kapalı bir form değildir, bu yüzden çözümünü neredeyse kolay olarak adlandıramam.
Joe

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.