Doğrusal bir regresyonu çözdüğümüzde birden fazla yerel optimum çözüm olabilir mi?


19

Bu ifadeyi eski bir doğru / yanlış sınavda okudum:

Degrade iniş kullanarak karesi alınmış hataların toplamını en aza indirerek doğrusal bir regresyon problemini çözersek birden fazla yerel optimum çözüm elde edebiliriz.

Çözüm: Yanlış

Sorum şu, bu sorunun hangi kısmı yanlış? Bu ifade neden yanlış?

Yanıtlar:


8

Bu soru, herhangi bir yetenekli istatistik kullanıcısının optimizasyon teorisi, optimizasyon yöntemleri ve istatistiksel yöntemler arasında bazı bağlantıları ortaya çıkardığı sürece ilginçtir. Bu bağlantılar basit ve kolay öğrenilse de, ince ve çoğu zaman göz ardı edilir.

Yorumlardan diğer yanıtlara kadar bazı fikirleri özetlemek gerekirse , "doğrusal regresyon" un sadece teorik olarak değil pratikte de benzersiz olmayan çözümler üretebilmesinin en az iki yolu olduğunu belirtmek isterim.

Tanımlanamazlık

Birincisi, modelin tanımlanamamasıdır. Bu, dışbükey fakat kesin olarak dışbükey olmayan, çoklu çözümlere sahip objektif bir işlev yaratır.

Gerileyen, örneğin, göz önünde z karşı x ve y için (bir yolunu kesmek ile) (x,y,z) verileri (1,1,0),(2,2,1),(3,3,2) . Bir çözüm z = 1 + y . Diğeriz^=1+yz^=1x . Birden fazla çözüm olması gerektiğini görmek için, modeli üç gerçek parametre(λ,μ,ν) veformdakibir hata terimi ile parametreleştirinε

z=1+μ+(λ+ν1)x+(λν)y+ε.

Artıkların karelerinin toplamı

SSR=3μ2+24μν+56ν2.

(Bu, detaylı analizleri okuyabileceğiniz ve işlevin grafiklerini görüntüleyebileceğiniz M-tahmincisinin ampirik kendirinin belirsiz olabilir mi?

Kareler (katsayıları nedeniyle ve 56 ) pozitif ve determinant 3 x 56 - ( 24 / 2 ) 2 = 24 , bu pozitif-yarı kesin karesel şeklidir pozitiftir ( μ , ν , X ) . Μ = ν = 0 olduğunda minimize edilir , ancak λ herhangi bir değere sahip olabilir. Amaç fonksiyonu yana SSR bağlı değildir Â3563×56(24/2)2=24(μ,ν,λ)μ=ν=0λSSRλ, onun gradyanı (veya başka türevleri) de yoktur. Bu nedenle, herhangi bir degrade iniş algoritması - eğer bazı keyfi yön değişiklikleri yapmazsa - çözümün değerini başlangıç ​​değeri ne olursa olsun ayarlayacaktır .λ

Degrade iniş kullanılmasa bile, çözüm değişebilir. In Rgibidir: Örneğin, bu modeli belirlemek için iki kolay, eşdeğer yolu vardır z ~ x + yveya z ~ y + x. İlk verimler z = 1 - X , ancak ikinci verir z = 1 + y . z^=1xz^=1+y

> x <- 1:3
> y <- -x
> z <- y+1

> lm(z ~ x + y)
Coefficients:
(Intercept)            x            y  
          1           -1           NA  


> lm(z ~ y + x)
Coefficients:
(Intercept)            y            x  
          1            1           NA 

( NADeğerler sıfır olarak yorumlanmalıdır, ancak birden çok çözümün var olduğu uyarısıyla uyarılmalıdır. Uyarı, Rçözüm yönteminden bağımsız olarak yapılan ön analizler nedeniyle mümkün olmuştur . Degrade iniş yöntemi muhtemelen birden çok çözüm olasılığını algılamaz Her ne kadar iyi bir kişi sizi optimum seviyeye ulaştığına dair bazı belirsizlikler konusunda uyaracaktır.)

Parametre kısıtlamaları

Sıkı dışbükeylik , parametrelerin etki alanı dışbükey olduğu sürece benzersiz bir küresel optimum garanti eder . Parametre kısıtlamaları, dışbükey olmayan alanlar oluşturabilir ve bu da birden çok global çözüme yol açabilir.

Çok basit bir örnek veri için "ortalama" tahmin sorunu tarafından karşılanmaktadır - 1 , 1 kısıtlamaya tabi | μ | 1 / 2 . Bu, Ridge Regresyon, Kement veya Elastik Ağ gibi normalleştirme yöntemlerinin tersi bir durumu modeller: bir model parametresinin çok küçük olmaması konusunda ısrar ediyor. (Bu sitede, bu tür parametre kısıtlamalarıyla regresyon problemlerinin nasıl çözüleceğini soran ve pratikte ortaya çıktıklarını gösteren çeşitli sorular ortaya çıkmıştır.)μ1,1|μ|1/2

Bu örnek için her ikisi de eşit derecede iyi olan en az iki kareli çözüm vardır . Kısıtlamaya tabi en aza indirerek bulunurlar | μ | 1 / 2 . İki çözelti μ = ± 1 / 2'dir . Parametre kısıtlama alanı hale getirir, çünkü birden fazla çözelti ortaya çıkabilir ^ ı ( - , - 1 / 2 ] (1μ)2+(1μ)2|μ|1/2μ=±1/2 konveks olmayan:μ(,1/2][1/2,)

$ \ Mu $ ile kareler toplamı grafiği

Parabol (kesinlikle) dışbükey bir fonksiyonun grafiğidir. Kalın kırmızı kısım alanıyla sınırlı olan kısımdır : μ = ± 1 / 2'de en düşük iki noktaya sahiptir , burada kareler toplamı 5 / 2'dir . Parabolün geri kalanı (noktalı olarak gösterilmiştir) kısıtlama ile kaldırılır, böylece benzersiz minimum değeri dikkate alınmaz.μμ=±1/25/2

Bir gradyan iniş yöntemi, muhtemelen "benzersiz" bir çözüm bulmak büyük sıçramalar istekli sürece pozitif bir değer ile başlayan ve aksi takdirde "eşsiz" bir çözüm bulmak μ = - 1 / 2μ=1/2μ=1/2 olduğunda negatif bir değerle başlayarak.

Aynı durum daha büyük veri kümelerinde ve daha yüksek boyutlarda (yani, sığacak daha fazla regresyon parametresi ile) ortaya çıkabilir.


1
Kesinlikle dışbükey olmayan ve sonsuz sayıda minimasyonu olan dışbükey fonksiyonun çok basit bir örneği . Y = x çizgisindeki herhangi bir nokta minimum noktadır. f(x,y)=(xy)2y=x
kjetil b halvorsen

1
@Kjetil Teşekkür ederim, bu doğru. Buradaki hile, bu işlevlerin regresyon durumlarında nasıl ortaya çıktığını göstermektir. Sizin işleviniz tam olarak verdiğim ilk örnek için ilham kaynağı.
whuber


2

Korkarım sorunuza ikili bir cevap yok. Doğrusal regresyon kesinlikle dışbükey ise (katsayılar üzerinde kısıtlama yok, düzenleyici yok vb.), Degrade iniş benzersiz bir çözüme sahip olacak ve küresel optimum olacaktır. Degrade iniş, dışbükey olmayan bir sorununuz varsa birden fazla çözüm getirebilir ve döndürür.

OP doğrusal bir regresyon istemesine rağmen, aşağıdaki örnek doğrusal olmasa da en az kare minimizasyonu gösterir (OP'nin istediği doğrusal regresyona karşı) çoklu çözümlere sahip olabilmesine ve gradyan inişinin farklı bir çözüm getirebilmesine .

Deneysel olarak basit bir örnek kullanarak

  1. Kare hataların toplamı bir süre dışbükey olmayabilir, bu nedenle birden fazla çözümü olabilir
  2. Gradyan iniş yöntemi çoklu çözümler sağlayabilir.

Aşağıdaki sorun için en küçük kareleri en aza indirmeye çalıştığınız örneği düşünün:

enter image description here

burada objektif fonksiyonu en aza indirerek için çözmeye çalışıyorsunuz . Yukarıdaki işlev farklı olmasına rağmen dışbükey değildir ve birden fazla çözüme sahip olabilir. Gerçek değerler ikame bir aşağıya bakınız.wa

a12=9,a13=1/9,a23=9,a31=1/9

minimize (9w1w2)2+(19w1w3)2+(19w2w1)2+(9w2w3)2+(9w3w1)2+(19w3w2)2

Yukarıdaki sorunun 3 farklı çözümü vardır ve bunlar aşağıdaki gibidir:

w=(0.670,0.242,0.080),obj=165.2

w=(0.080,0.242,0.670),obj=165.2

w=(0.242,0.670,0.080),obj=165.2

As shown above the least squares problem can be nonconvex and can have multiple solution. Then above problem can be solved using gradient descent method such as microsoft excel solver and every time we run we end up getting different solution. since gradient descent is a local optimizer and can get stuck in local solution we need to use different starting values to get true global optima. A problem like this is dependent on starting values.


2
I don't think this answers OP's question because OP asks specifically about linear regression, not optimization in general.
Sycorax says Reinstate Monica

1
No it does not, but just trying to make a point on problems with optimizes, will update with caveats
forecaster

@user777 you are right. this is a very valid question on old exam from MIT. I'm sure the answer is false with thanks to forecastet.
Anjela Minoeu

so are u sure that I am right?
Anjela Minoeu

@AnjelaMinoeu, I have updated my response.
forecaster

1

This is because the objective function you are minimizing is convex, there is only one minima/maxima. Therefore, the local optimum is also a global optimum. Gradient descent will find the solution eventually.

Why this objective function is convex? This is the beauty of using the squared error for minimization. The derivation and equality to zero will show nicely why this is the case. It is pretty a textbook problem and is covered almost everywhere.


4
Convexity does not imply a unique minimum. Typically you need to appeal to strict convexity of an objective function defined on a convex domain. Also an issue here are the termination criteria for gradient descent using floating point arithmetic: even when the objective function is strictly convex, the algorithm is likely to find different solutions (depending on starting values) when the function is nearly flat near its minimum.
whuber

@whuber would you please make it simpler and clear for me?
Anjela Minoeu

@whuber I think the first issue is the use of terminology. Second, convexity does imply a unique minimum. I can't see a differentiable concave function which does not have a single minimum/maximum. See proof here: planetmath.org/localminimumofconvexfunctionisnecessarilyglobal
Vladislavs Dovgalecs

3
I haven't bothered to read the proof, because it must invoke strict convexity to be correct. A least-squares problem with unidentifiable coefficients will be convex but not strictly convex, and thereby will have (infinitely) many solutions. But that's not completely relevant to gradient descent, which has its own problems--some of which are clearly discussed in the Wikipedia article. Thus, in both theoretical and practical senses, the correct answer to the question is true: gradient descent can--and will--give multiple solutions.
whuber

@whuber Yes, the proof appeals to the strict convexity.
Vladislavs Dovgalecs
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.