Hata oranı lambda Düzenleme parametresinin Dışbükey işlevi midir?


11

Ridge veya Lasso'daki lambda düzenleme parametresini seçerken önerilen yöntem lambda'nın farklı değerlerini denemek, Doğrulama Kümesindeki hatayı ölçmek ve son olarak en düşük hatayı döndüren lambda değerini seçmektir.

F (lambda) = hatası Convex ise bu benim için bir sorun değil. Böyle olabilir mi? Bu eğrinin birden fazla yerel minimi olabilir (bu, lambda'nın bazı bölgelerinde minimum bir Hata bulmanın, başka bir bölgede daha küçük bir Hata döndüren bir lambda olması olasılığını engellemeyeceği anlamına gelir)

resim açıklamasını buraya girin

Tavsiyeniz takdir edilecektir.

Yanıtlar:


11

Orijinal soru, hata fonksiyonunun dışbükey olması gerekip gerekmediğini sordu. Hayır. Aşağıda sunulan analiz, bu ve değiştirilmiş soru hakkında, hata işlevinin birden fazla yerel minimuma sahip olup olamayacağını soran bir içgörü ve sezgi sağlamayı amaçlamaktadır.

Sezgisel olarak, veriler ve eğitim seti arasında matematiksel olarak gerekli bir ilişki olması gerekmez. Modelin başlangıçta zayıf olduğu, bazı düzenlenme ile daha iyi hale geldiği ve daha sonra tekrar kötüleştiği eğitim verilerini bulabilmeliyiz. Hata eğrisi bu durumda dışbükey olamaz - en azından yaparsanız farklılık parametresi düzenlileştirme değil için .0

Not dışbükey eşsiz bir minimuma sahip eşdeğer değildir! Bununla birlikte, benzer fikirler birden fazla yerel minimumun mümkün olduğunu göstermektedir: Düzenleme sırasında ilk önce takılan model, diğer eğitim verileri için kayda değer bir şekilde değişmezken bazı eğitim verileri için daha iyi olabilir ve daha sonra diğer eğitim verileri vb. İçin daha iyi olacaktır. bu tür eğitim verilerinin karışımı çoklu yerel minimum üretmelidir. Analizi basit tutmak için bunu göstermeye çalışmam.

Düzenle (değiştirilen soruya cevap vermek için)

Aşağıda sunulan analizden ve arkasındaki sezgiden o kadar emindim ki, mümkün olan en kaba şekilde bir örnek bulmaya karar verdim: Küçük rastgele veri setleri oluşturdum, üzerlerinde bir Kement çalıştırdım, küçük bir eğitim seti için toplam kare hatasını hesapladım, ve hata eğrisini çizdi. Birkaç deneme, iki minima ile bir tane üretti. Vektörler şeklinde olan özellikleri x 1 ve x 2 ve tepki y .(x1,x2,y)x1x2y

Eğitim verileri

(1,1,-0.1), (2,1,0.8), (1,2,1.2), (2,2,0.9)

Test verisi

(1,1,0.2), (1,2,0.4)

Kement, tüm argümanların varsayılan değerlerinde bırakılmasıyla glmnet::glmmetin kullanılarak çalıştırıldı R. X eksenindeki değerleri, bu yazılım tarafından bildirilen değerlerin karşılıklarıdır (çünkü cezasını 1 / λ ile parametreleştirdiği için ).λ1/λ

Birden çok yerel minima ile bir hata eğrisi

şekil


analiz

Diyelim dikkate herhangi parametreler uydurma düzgünleştirilmesi yöntemi verileri x i ve yanıtları gelen y ı Ridge Regresyon ve Lasso için bu özellikler, Common sahiptir:β=(β1,...,βp)xbenyben

  1. (Parametrelendirme) Yöntem, λ = 0'a karşılık gelen düzensiz model ile gerçek sayılarıyla parametrelendirilir .λ[0,)λ=0

  2. (Süreklilik) parametre tahmini β sürekli bağlıdır X ve özellikler için tahmin edilen değerler ile sürekli olarak değişen p .β^λβ^

  3. (Büzülme) de , p0 .λβ^0

  4. Herhangi bir özellik vektörü için (Sonluluk) gibi β0 kestirim y ( x ) = f ( x , β ) 0 .xβ^0y^(x)=f(x,β^)0

  5. (Monoton hatası) herhangi bir değer karşılaştırma hata fonksiyonu tahmin değeri y , L ( y , y ) , tutarsızlık artar | Y - y | böylece gösterimde bazı kötüye ile, biz bunu ifade edebilir L ( | y - y | ) .yy^L(y,y^)|y^-y|L(|y^-y|)

(Sıfır girişi herhangi bir sabitle değiştirilebilir.)(4)

Veriler, ilk (unregularized) parametresi tahmini şekildedir varsayalım β ( 0 ) sıfır değildir. Let yapı bir gözlem oluşan bir eğitim veri kümesi ( x 0 , y 0 ) olduğu için f ( x 0 , β ( 0 ) ) 0 . (Böyle bir x 0 bulmak mümkün değilse , ilk model çok ilginç olmayacaktır!) Y 0 = f ( x 0 ,β^(0)(x0,y0)f(x0,β^(0))0x0. y0=f(x0,β^(0))/2

Varsayımlar hata eğrisi anlamına şu özelliklere sahiptir:e:λL(y0,f(x0,β^(λ))

  1. (nedeniyle seçimi y 0 ).e(0)=L(y0,f(x0,β^(0))=L(y0,2y0)=L(|y0|)y0

  2. (nedeniyle olarak λ ∞ iken , β ( λ ) 0 , nereden y ( x 0 ) 0 ).limλe(λ)=L(y0,0)=L(|y0|)λβ^(λ)0y^(x0)0

Böylece, grafiği sürekli olarak eşit derecede yüksek (ve sonlu) uç noktayı birbirine bağlar.

Olası $ e $ grafiğini gösteren şekil.

Niteliksel olarak, üç olasılık vardır:

  • Eğitim seti için tahmin asla değişmez. Bu olası değildir - seçtiğiniz herhangi bir örnek bu özelliğe sahip olmayacaktır.

  • Bazı ara tahminler olan kötü başında daha λ = 0 veya sınırlamaz λ . Bu işlev dışbükey olamaz.0<λ<λ=0λ

  • Tüm ara tahminler ile 2 y 0 arasındadır . Süreklilik en az bir en az olacaktır ima e hangi yakın, E dışbükey olması gerekir. Ancak e ( λ ) asimptotik olarak sonlu bir sabite yaklaştığından , yeterince λ için dışbükey olamaz .02y0eee(λ)λ

Şekildeki dikey kesikli çizgi, grafiğin dışbükeyden (solda) dışbükey olmayana (sağda) değiştiğini göstermektedir. ( Bu şekilde yakınında dışbükey olmayan bir bölge de vardır , ancak genel olarak durum böyle olmayabilir.)λ0


Ayrıntılı cevabınız için teşekkür ederim. Mümkünse soruyu düzenlediğim gibi inceleyin ve yanıtınızı güncelleyin.
rf7

Harika cevap (+1). Pratikte, genellikle çok az eğitim ve test veri noktası olmadığını düşünüyorum. Aynı (sabit ve yeterince düzenli) dağıtımdan yeterli eğitim ve test veri noktası alındığında bu cevabın sonucu değişiyor mu? Özellikle, bu senaryo altında, yüksek olasılıkla benzersiz bir yerel minimum var mı?
user795305

@Ben Önemli olan test noktası sayısı değildir: bu sonuç tamamen test noktalarının eğitim noktalarının dağılımına göre dağılımına bağlıdır. Bu nedenle, "yüksek olasılıklı" meselesi, regresör değişkenlerinin çok değişkenli dağılımı hakkında bazı özel varsayımlar yapılmadan cevaplanmayacaktır. Ayrıca, oyundaki birçok değişkenle, bu çoklu yerel minima fenomeni çok daha muhtemel olacaktır. Ben şüpheli (değişkenler olarak birçok gözlemler gibi pek çok kez) büyük bir test setinin rastgele seçim olabilir genellikle benzersiz bir küresel min var.
whuber

1
@whuber Teşekkürler! Katılıyorum: Eğitim ve test noktaları arasındaki (gerçek) dağılım aynı olmalı ve eğitim ile test setinin ampirik dağılımlarının anlaşmaya yetecek kadar örnek olması gerekir. (Görünüşe göre önceki yorumumda çok kötü ifade ettim.) Örneğin, müştereken normal dağılıma sahipse (dejenere olmayan kovaryans ile), hata eğrisinin benzersiz bir yerel min'in 1'e yakınsama olasılığından şüpheleniyorum ( diyelim ki, orada, eğer n eğitimde numuneler ve test seti n ile p sabit (hatta göreceli yavaş artan n ))(x,y)nnpn
user795305

0

Bu cevap özellikle kement ile ilgilidir (ve sırt gerilemesi için geçerli değildir).

Kurmak

Bir yanıtı modellemek için kullandığımız değişkenleri olduğunu varsayalım . Varsayalım n eğitim veri noktasına ve m doğrulama veri noktasına sahibiz .pnm

Eğitim girdisi ve yanıt y ( 1 ) R n olsun . Kementi bu eğitim verisinde kullanacağız. Kendisine, koyun β λ = arg dakika β R sy ( 1 ) - X ( 1 ) β 2 2 + λ β 1 , eğitim verilerinden tahmin edilen bir katsayı ailesi olsun . Biz seçecektir hangi p  giriş ile, bir doğrulama seti üzerindeki hata dayalı tahmincisi olarak kullanmak için X (X(1)R,nxpy(1)R,n

(1)β^λ=argminβR,py(1)-X(1)β22+λβ1,
β^λ ve tepki y ( 2 ) R, m . İle λ = arg dakika λ R +y ( 2 ) - x ( 2 ) p λ 2 2X(2)R,mxpy(2)R,m Biz hata fonksiyonu okuyan ilgilenene(λ)=y(2)-x(2) p λ 2 2 eden veri-güdümlü tahmin neden olur p λ .
(2)λ^=argminλR,+y(2)-X(2)β^λ22,
e(λ)=y(2)-X(2)β^λ22β^λ^

Hesaplama

Şimdi, denklem deki amacın ikinci türevini , X ' ler veya y 'ler üzerinde herhangi bir dağılım varsayımı yapmadan hesaplayacağız . Farklılaşmayı ve bazı yeniden örgütlenmesini kullanarak, (resmen) hesaplamak o 2(2)Xy YanapA,isimli parçalı doğrusal içinXKiçin (K, türevi kement çözelti yolu düğüm sonlu grubu olmak üzere)

2λ2y(2)-X(2)β^λ22=λ{-2y(2)TX(2)λβ^λ+2β^λTX(2)TX(2)λβ^λ}=-2y(2)TX(2)2λ2β^λ+2(β^λ)TX(2)TX(2)2λ2β^λ+2λβ^λTX(2)TX(2)Tλβ^λ=-2{(y(2)-X(2)β^λ)T2λ2β^λ-X(2)λβ^λ22}.
β^λλKKbir parçalı sabit ve2λβ^λisimli tüm sıfırXK. Bu nedenle,22λ2β^λλKbir negatif olmayan bir fonksiyonX.
2λ2y(2)-X(2)β^λ22=2X(2)λβ^λ22,
λ

Sonuç

X(2){X(1),y(1)}X(2)λβ^λ0λ<λmaksimume(λ)R,Kβ^λe(λ)

Son olarak, kement çift gelen, biliyoruz tekdüze bir şekilde azalır λ artar. Eğer bunu kurabilirsekX(1)β^λ22λX(2)β^λ22e(λ)L(X(1))=L(X(2))


1
Yalnızca itimat P fonksiyonu doğrusal sürekli parçalı olarak X sonuçlandırmak e kesinlikle dışbükeydir. Bu kesintinin genellikle geçerli olup olmadığını görelim. Bu tür bir fonksiyonudur β ( λ ) =β^λe^β^(λ)=|λ-[λ]|[]y(2)=0X(2)=1e^(λ)=β^(λ)2

@whuber İyi bir nokta! Teşekkürler! Bu gönderiyi daha sonra düzenleyeceğim.
user795305
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.