Bu soru, herhangi bir yetenekli istatistik kullanıcısının optimizasyon teorisi, optimizasyon yöntemleri ve istatistiksel yöntemler arasında bazı bağlantıları ortaya çıkardığı sürece ilginçtir. Bu bağlantılar basit ve kolay öğrenilse de, ince ve çoğu zaman göz ardı edilir.
Yorumlardan diğer yanıtlara kadar bazı fikirleri özetlemek gerekirse , "doğrusal regresyon" un sadece teorik olarak değil pratikte de benzersiz olmayan çözümler üretebilmesinin en az iki yolu olduğunu belirtmek isterim.
Tanımlanamazlık
Birincisi, modelin tanımlanamamasıdır. Bu, dışbükey fakat kesin olarak dışbükey olmayan, çoklu çözümlere sahip objektif bir işlev yaratır.
Gerileyen, örneğin, göz önünde z karşı x ve y için (bir yolunu kesmek ile) (x,y,z) verileri (1,−1,0),(2,−2,−1),(3,−3,−2) . Bir çözüm z = 1 + y . Diğeriz^=1+yz^=1−x . Birden fazla çözüm olması gerektiğini görmek için, modeli üç gerçek parametre(λ,μ,ν) veformdakibir hata terimi ile parametreleştirinε
z=1+μ+(λ+ν−1)x+(λ−ν)y+ε.
Artıkların karelerinin toplamı
SSR=3μ2+24μν+56ν2.
(Bu, detaylı analizleri okuyabileceğiniz ve işlevin grafiklerini görüntüleyebileceğiniz M-tahmincisinin ampirik kendirinin belirsiz olabilir mi?
Kareler (katsayıları nedeniyle ve 56 ) pozitif ve determinant 3 x 56 - ( 24 / 2 ) 2 = 24 , bu pozitif-yarı kesin karesel şeklidir pozitiftir ( μ , ν , X ) . Μ = ν = 0 olduğunda minimize edilir , ancak λ herhangi bir değere sahip olabilir. Amaç fonksiyonu yana SSR bağlı değildir Â3563×56−(24/2)2=24(μ,ν,λ)μ=ν=0λSSRλ, onun gradyanı (veya başka türevleri) de yoktur. Bu nedenle, herhangi bir degrade iniş algoritması - eğer bazı keyfi yön değişiklikleri yapmazsa - çözümün değerini başlangıç değeri ne olursa olsun ayarlayacaktır .λ
Degrade iniş kullanılmasa bile, çözüm değişebilir. In R
gibidir: Örneğin, bu modeli belirlemek için iki kolay, eşdeğer yolu vardır z ~ x + y
veya z ~ y + x
. İlk verimler z = 1 - X , ancak ikinci verir z = 1 + y . z^=1−xz^=1+y
> x <- 1:3
> y <- -x
> z <- y+1
> lm(z ~ x + y)
Coefficients:
(Intercept) x y
1 -1 NA
> lm(z ~ y + x)
Coefficients:
(Intercept) y x
1 1 NA
( NA
Değerler sıfır olarak yorumlanmalıdır, ancak birden çok çözümün var olduğu uyarısıyla uyarılmalıdır. Uyarı, R
çözüm yönteminden bağımsız olarak yapılan ön analizler nedeniyle mümkün olmuştur . Degrade iniş yöntemi muhtemelen birden çok çözüm olasılığını algılamaz Her ne kadar iyi bir kişi sizi optimum seviyeye ulaştığına dair bazı belirsizlikler konusunda uyaracaktır.)
Parametre kısıtlamaları
Sıkı dışbükeylik , parametrelerin etki alanı dışbükey olduğu sürece benzersiz bir küresel optimum garanti eder . Parametre kısıtlamaları, dışbükey olmayan alanlar oluşturabilir ve bu da birden çok global çözüme yol açabilir.
Çok basit bir örnek veri için "ortalama" tahmin sorunu tarafından karşılanmaktadır - 1 , 1 kısıtlamaya tabi | μ | ≥ 1 / 2 . Bu, Ridge Regresyon, Kement veya Elastik Ağ gibi normalleştirme yöntemlerinin tersi bir durumu modeller: bir model parametresinin çok küçük olmaması konusunda ısrar ediyor. (Bu sitede, bu tür parametre kısıtlamalarıyla regresyon problemlerinin nasıl çözüleceğini soran ve pratikte ortaya çıktıklarını gösteren çeşitli sorular ortaya çıkmıştır.)μ−1,1|μ|≥1/2
Bu örnek için her ikisi de eşit derecede iyi olan en az iki kareli çözüm vardır . Kısıtlamaya tabi en aza indirerek bulunurlar | μ | ≥ 1 / 2 . İki çözelti μ = ± 1 / 2'dir . Parametre kısıtlama alanı hale getirir, çünkü birden fazla çözelti ortaya çıkabilir ^ ı ∈ ( - ∞ , - 1 / 2 ] ∪(1−μ)2+(−1−μ)2|μ|≥1/2μ=±1/2 konveks olmayan:μ∈(−∞,−1/2]∪[1/2,∞)
Parabol (kesinlikle) dışbükey bir fonksiyonun grafiğidir. Kalın kırmızı kısım alanıyla sınırlı olan kısımdır : μ = ± 1 / 2'de en düşük iki noktaya sahiptir , burada kareler toplamı 5 / 2'dir . Parabolün geri kalanı (noktalı olarak gösterilmiştir) kısıtlama ile kaldırılır, böylece benzersiz minimum değeri dikkate alınmaz.μμ=±1/25/2
Bir gradyan iniş yöntemi, muhtemelen "benzersiz" bir çözüm bulmak büyük sıçramalar istekli sürece pozitif bir değer ile başlayan ve aksi takdirde "eşsiz" bir çözüm bulmak μ = - 1 / 2μ=1/2μ=−1/2 olduğunda negatif bir değerle başlayarak.
Aynı durum daha büyük veri kümelerinde ve daha yüksek boyutlarda (yani, sığacak daha fazla regresyon parametresi ile) ortaya çıkabilir.