Doğrusal regresyon neden hipotez ile giriş veri noktası arasındaki dikey mesafeye dayalı bir maliyet fonksiyonu kullanıyor?


14

Diyelim ki A, B, C, D, E giriş (tahminci) ve çıkış (yanıt) veri noktalarına sahibiz ve noktalardan bir çizgi sığdırmak istiyoruz. Bu, sorunu göstermek için basit bir sorundur, ancak daha yüksek boyutlara da genişletilebilir.

Sorun bildirimi

resim açıklamasını buraya girin

Mevcut en iyi uyum veya hipotez yukarıdaki siyah çizgi ile temsil edilir . Mavi ok ( ), noktadan çizgiyle kesişene kadar dikey bir çizgi çizerek, veri noktası ile geçerli en iyi uyum arasındaki dikey mesafeyi temsil eder.

Yeşil ok ( ), kesişme noktasında mevcut hipoteze dik olacak ve böylece veri noktası ile mevcut hipotez arasındaki en az mesafeyi temsil edecek şekilde çizilir. A ve B noktaları için, mevcut en iyi tahmine dikey olacak ve x eksenine dikey olan bir çizgiye benzeyecek şekilde çizilmiş bir çizgi. Bu iki nokta için mavi ve yeşil çizgiler çakışır, ancak C, D ve E noktaları için değildir.

En küçük kareler ilkesi , herhangi bir eğitim döngüsünde veri noktalarından (A, B, C, D veya E) tahmini hipoteze ( ) dikey bir çizgi çizerek doğrusal regresyon için maliyet fonksiyonunu tanımlar ile temsil edilir ve

CostFunction=i=1N(yihθ(xi))2

Burada veri noktalarını ve en uygun temsil eder.h θ ( x i )(xi,yi)hθ(xi)

Bir nokta (A, B, C, D veya E) arasındaki minimum mesafe, o noktadan geçerli en iyi tahminde (yeşil oklar) çizilen dikey bir çizgiyle temsil edilir.

En küçük kareler fonksiyonunun amacı, minimize edildiğinde hipotez ile tüm noktalar arasında en az mesafeye yol açacak ancak hipotez ile tek bir giriş noktası arasındaki mesafeyi en aza indirmeyecek objektif bir fonksiyon tanımlamaktır.

**Soru**

Neden lineer regresyon için Maliyet Fonksiyonunu, giriş veri noktasından geçen hipotez (hipoteze dik bir çizgi ile tanımlanır) arasında ( )?


5
Basit doğrusal regresyon, gözlemlerin x-koordinatlarının değerlerinde herhangi bir hata olmadığını varsayar (örneğin, deneysel manipülasyonlar oldukları için). X ekseni üzerinde hatalar varsa, teklif ettiğinize benzer bir maliyet fonksiyonunu en aza indirerek bunları hesaba katabilir; bu, x ve y eksenindeki hataların varyansı arasındaki oranın ayarlanmasını gerektirir. Oran , bu, noktalar ve çizgi arasındaki dikey mesafeyi en aza indirmeye (ortogonal regresyon) eşittir. oranına regresyon denir1=11
matteo

PCA'da bu yazıyı görün: cerebralmastication.com/2010/09/…
James

Yanıtlar:


13

Hem bağımlı değişkente (dikey hatalar) hem de bağımsız değişkente (yatay hatalar) parazitiniz varsa, en küçük kareler objektif işlevi bu yatay hataları içerecek şekilde değiştirilebilir. Bu iki tür hatanın nasıl ağırlıklandırılacağı sorunu. Bu ağırlıklandırma genellikle iki hatanın varyans oranına bağlıdır:

  1. Dikey hatanın sapması, yatay hatanın sapmasına göre aşırı büyükse, OLS doğrudur.
  2. Yatay hatanın varyans dikey hatanın varyans son derece büyük görece ise, en küçük kareler (ki burada ters ile gerileyen ve katsayı tahmin tersinin tahmini olarak kullanılan ) uygundur .y y βxyyβ
  3. Dikey hatanın varyansının yatay hatanın varyansına oranı, bağımlı ve bağımsız değişkenlerin varyanslarının oranına eşitse, tutarlı bir tahminin ortaya çıktığı "diyagonal" regresyon örneğimiz vardır. OLS ve ters en küçük kareler tahmin edicilerinin geometrik ortalaması olmalıdır.
  4. Bu hata varyanslarının oranı bir ise, o zaman tahmin çizgisine dik bir çizgi boyunca ölçülen kare hataların toplamının en aza indirildiği "dik" regresyon örneğimiz vardır. Aklınızda olan şey buydu.

Uygulamada, bu prosedürün en büyük dezavantajı, hata varyanslarının oranının genellikle bilinmemesi ve genellikle tahmin edilememesidir, bu nedenle ileriye giden yol net değildir.


İlk cümlede "bağımlı" ifadeyi "bağımsız" olarak değiştirmek için düzenlemeye çalıştım, ancak düzenlemeler 6 karakter olmalıdır. Belki yazım hatasını düzeltmek için cevabı güncelleyin?
Ryan Stout

@RyanStout Teşekkürler ve bitti. Sanırım boşluk eklemeniz sizi bu noktaya getirecektir.
Dimitriy V. Masterov

Şimdi biraz kafam karıştı: dikey hatalar bağımlı değişkendeki (y) hatalar ve bağımsız değişkendeki (x) yatay hatalar değil mi?
Ryan Stout

@RyanStout Tekrar berbat ettim
Dimitriy V. Masterov

9

i=1N(yihθ(xi))2
hθ(x)
i=1Nminx,y[(yihθ(x))2+(xix)2]
hθ(x)

İyi bir noktaya değindin. Genel olarak Maliyet Fonksiyonunun nasıl hesaplanacağını düşünüyordum.
alpha_989

Nokta ile doğrusal olmayan bir düzlem / yüzey arasındaki mesafenin nasıl değerlendirileceğinden emin değilim, ancak bir nokta ile doğrusal bir yüzey / düzlem arasındaki mesafeyi değerlendirmek için iç içe minimizasyona ihtiyacımız olmayabilir: mathinsight.org/distance_point_plane
alpha_989

İkincisi, regresyon kullandığımızda amacımız en uygun olanı bulmak için ağırlıkları değerlendirmektir. Anladığım kadarıyla, gerçek hesaplama sırasında, maliyet fonksiyonunu nadiren değerlendiriyoruz, ancak maliyet fonksiyonunun bir türevini?
alpha_989

1
@whuber. Anlıyorum. Bu iki terim için bu anlamları belirledikten sonra, çözülen sorunların farklı olduğunu kabul ediyorum (x'de hata var mı ya da yok mu?). Bu terimlerin anlamı hakkında bilgili kişilerden geniş bir mutabakat alacağınızı sanmıyorum, ama bu bir yan nokta.
stokastik

1
@Stochastic "Eğri uydurma" kavramı hakkında belirsizlikler olabileceğine katılıyorum, ancak çağırdığım regresyon kavramı en iyi yetkililer tarafından yapılan yazılarda ortaya çıkıyor.
whuber

2

Aşırı basitleştirilmiş sürüm X'in herhangi bir hatanın olmadığı varsayılır. Örneğin, çiziminizdeki E noktasına bakarsanız, X koordinatının tam olarak doğru olduğu varsayılır. Tipik olarak bu, X'i kontrol edebildiğimiz, başka bir deyişle belirli bir değere ayarlayabildiğimiz durumdur. Bu durumda, var olabilecek tek hata Y yönündedir ve bu nedenle hata / maliyet işlevi yalnızca Y yönünü içerir.

Durum böyle olmadığında, X ve X'i kontrol etmediğimizde hata olabilir, insanlar X yönünü hata fonksiyonuna tip II veya model II regresyonu ve değişkenleri olarak dahil ederler. X ve Y'nin farklı ölçekleri varsa bunu yapmak zor olabilir, bu yüzden normalleştirmeler ve benzeri düşünmek zorundasınız.


1

Prosaik olma riski altında, hata fonksiyonunun nedeni, standart yorumun x'in verilmesi ve birinin y bileşenini en iyi şekilde tanımlamaya (veya tahmin etmeye) olmasıdır. Yani 'x' de hata yok. Örneğin, bugünün kapanış fiyatına dayalı olarak yarının bir hisse senedinin kapanış fiyatını anlamaya (veya tahmin etmeye) çalışabilirsiniz. Benzer şekilde, yarının ortalama sıcaklığı bugünün ortalama sıcaklığı açısından da denenebilir ve anlaşılabilir. Açıkçası bu örnekler basit fikirlidir, ama fikir budur. Bu arada çoğu insanın fark etmediği bir şey, ama örneklerinizden net olduğunu düşünüyorum, eğer bir kişi x'e karşı geriliyorsa, regresyon çizgisinin x'in y'ye karşı gerilemesine herhangi bir benzerliği olması gerekmez. Ortogonal regresyon, bir çizgiden noktaların uzaklığını en aza indiren çizgiyi bulmaya çalıştığı regresyon için kullanılan terimdir. Örneğin, IBM hisse senedi fiyatı ile AAPL hisse senedi fiyatı arasındaki ilişkiyi anlamaya çalışıyorsanız, bu uygun yöntem olacaktır.


1

Noktalardan bir çizgi takarken, dik mesafenin rastgele çizgilere uygulanabilecek en doğal kayıp fonksiyonudur (y-mesafesinin x eksenine dik çizgiler için anlamsız hale geldiğini unutmayın). Bu sorun, "dikey regresyon" veya (en çok kullanılan terim olan AFAIK) "Temel Bileşen Analizi" (PCA) gibi bir dizi isim altında bilinir. Bu sorunun keyfi boyutlarda tartışılması için bkz.

Späth: "Doğrusal manifoldlara uyan dikey en küçük kareler." Numerische Mathematik 48, s.441–445, 1986

@Aginensky'nin daha önce belirttiği gibi, Doğrusal Regresyon'un arkasındaki fikir noktalardan bir çizgiye uymak değil, verilen x değerleri için y değerlerini tahmin etmektir . Bu nedenle tahmin yerinin doğruluğu sadece y cinsinden kullanılır.

Bir eğri uydurma problemini yeniden formüle noktası aracılığıyla , bir kestirim sorun şeyler yapar gibi bir belirleyici olduğundan, karmaşık olduğu bilinmeyen ve hatta bir dereceye İsteğe bağlı olmak üzere . Düz çizgiler dışındaki eğriler için, bu hala aktif araştırmaya tabi bir sorundur. Olası (eksik) yaklaşım, eğri için bir başlangıç ​​tahmini bulmak için bir çözüm sunmadığı için değil, sadece böyle bir ilk tahminin tekrarlı olarak nasıl iyileştirileceği için aşağıdaki makalede açıklanmıştır:x(t)pii=1Nt

Wang, Pottmann, Liu: "B-spline eğrilerinin eğrilik temelli kare mesafesi minimizasyonu ile bulutları işaret etmesi." Grafiklerde ACM İşlemleri 25.2, s. 214-238, 2006

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.