OLS doğrusal regresyonunda maliyet fonksiyonu


31

Andrew Ng tarafından Coursera'da makine öğrenmesi hakkında verilen lineer regresyon dersiyle biraz kafam karıştı. Orada, karelerin toplamını en aza indiren bir maliyet işlevi verdi:

12mi=1m(hθ(X(i))Y(i))2

nereden geldiğini anlıyorum . Bence öyle yaptı ki, kare teriminde türev gerçekleştirdiğinde, kare terimdeki 2, yarı ile iptal edecektir. Ama nereden geldiğini anlamıyorum . 1121m

Neden gerekiyor ? Standart doğrusal regresyonda, bizde yok, artıkları en aza indirgiyoruz. Neden burada buna ihtiyacımız var?1m


1 / 2m, veri noktası başına ortalama hatanın bulunmasına yardımcı olur ve m, toplam gözlem veya gözlem sayısını temsil eder.
Krishnan Achary

Yanıtlar:


33

Farkında göründüğünüz gibi, doğrusal regresyon elde etmek için kesinlikle faktörüne ihtiyacımız yok . Küçültücüler elbette ki, onunla veya onsuz tamamen aynı olacaktır. ile normalize etmenin tipik bir nedeni , maliyet fonksiyonunu, rastgele seçilen yeni bir örnekte beklenen eğitim kaybı olan (genel olarak belirlenmemiş olan) “genelleme hatası” nın bir yaklaşımı olarak görebilmemizdir:m1/mm

Diyelim ki bazılarından örneklenmiş. dağılımı. Daha sonra büyük için o beklemek m 1(X,Y),(X(1),Y(1)),...,(X(m),Y(m))m

1mi=1m(hθ(X(i))Y(i))2E(hθ(X)Y)2.

Daha doğrusu, Büyük Sayıların Güçlü Yasası ile, olasılık 1 ile.

limm1mi=1m(hθ(X(i))Y(i))2=E(hθ(X)Y)2

Not: Yukarıdaki ifadelerin her biri , eğitim setine bakmadan seçilen herhangi bir belirli . Makine öğrenimi için, bu ifadelerin eğitim setindeki iyi performansına dayanarak seçilen bazı için geçerli olmasını istiyoruz . Bu iddialar hala geçerli olabilir, ancak işlev kümesinde bazı varsayımlar yapmamız gerekiyor ve Kanun'dan daha güçlü bir şeye ihtiyacımız var Büyük Sayılar. θ { h θθθ^{hθ|θΘ}


1
@StudentT Bu, muhtemelen toplam hatayı toplamda kullanmak için en iyi nedendir. Açıklamam, gerçekten DavidR'in daha derin bir nedenin yüzeysel bir sonucudur.
Matthew Drury

28

Sen yok olması için. Kayıp işlevi, dahil edip veya onu bastırmanız için aynı asgari seviyeye sahiptir . Yine de eklerseniz, veri noktası başına ortalama hatayı en aza indirmenin (bir buçuk) güzel bir yorumunu elde edersiniz . Başka bir deyişle, toplam hata yerine hata oranını en aza indirirsiniz .1m

Performansı, farklı boyutlarda iki veri kümesinde karşılaştırmayı düşünün. Kare hataların ham toplamı doğrudan karşılaştırılamaz, çünkü daha büyük veri setleri sadece boyutlarından dolayı daha fazla toplam hata yapma eğilimindedir. Öte yandan, veri noktası başına ortalama hata .

Biraz detaylandırabilir misin?

Emin. Veri veri noktalarının bir koleksiyonudur . modeline sahip olduğunuzda , tek bir veri noktasındaki en küçük kareler hatası:s s{xben,yben}hh

(h(xben)-yben)2

bu, elbette, her veri noktası için farklıdır. Şimdi, eğer hataları basitçe özetlersek (ve tanımladığınız nedenle yarıya kadar çarparsak) toplam hatayı alırız

12Σben(h(xben)-yben)2

fakat eğer summan sayısına bölünürsek, veri noktası başına ortalama hata elde ederiz.

12mΣben(h(xben)-yben)2

Ortalama hata FAYDASIDA varsa yani iki veri setlerini ve ait boyutlarını differeing , o zaman ortalama hataları ancak toplam hatalar karşılaştırabilirsiniz. İkinci veri seti, örneğin, ilk boyutun on katı ise, aynı hata için toplam hatanın yaklaşık on kat daha büyük olmasını bekleriz. Öte yandan, ortalama hata, veri setinin boyutunun etkisini ayırır ve bu nedenle benzer performans modellerinin farklı veri setlerinde benzer ortalama hatalara sahip olmasını bekleriz.{xben,yben}{xben',yben'}


1
Seni biraz takip edebilirim, biraz detay verebilir misin? Üzgünüm, makine öğrenmede yeniyim!
SmallChess

@ Öğrenci Öğrenci Cevabımda bir açıklama yapmaya çalıştım.
Matthew Drury

1
Aynısı, büyük veri kümeleriyle çalışırken en yaygın olan doğrusal degrade iniş türü olan stokastik gradyan inişini yaparken mini parti büyüklüğünü denemeniz durumunda da geçerlidir: hatayı daha kolay karşılaştırabilirsiniz.
jasonszhao
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.