Tekrar Ağırlıklı En Küçük Karelerin Tanımı ve Yakınsaması


16

Aşağıdaki formun işlevlerini en aza indirmek için yinelenen yeniden ağırlıklandırılmış en küçük kareleri (IRLS) kullanıyorum,

J(m)=i=1Nρ(|xim|)

burada N , örneklerinin sayısıdır xiR, mR istediğim sağlam tahmindir ve ρ uygun bir sağlam ceza fonksiyonudur. Diyelim ki dışbükey (kesinlikle olmasa da) ve şimdilik ayırt edilebilir. Böyle bir iyi bir örnek olan Huber kaybı işlevi .ρ

Ne yaptığını ayırt etmektir J(m) göre m , (ve manipüle) elde etmek için

dJdm=i=1Nρ(|xim|)|xim|(xim)

ve yinelemeli ayarlayarak bu çözme 0 eşit ve yineleme ağırlıkları tespit k için wi(k)=ρ(|xim(k)|)|xim(k)|(de algılanan tekillikxi=m(k)gerçektenumursadığımtümçıkarılabilir bir tekilliktirρ). Sonra elde ederim,

i=1Nwi(k)(xim(k+1))=0

ve elde etmeyi çözüyorum, m(k+1)=i=1Nwi(k)xii=1Nwi(k) .

Bu yakınsama noktasına kadar bu sabit nokta algoritmasını tekrar ediyorum. Sabit bir noktaya gelirseniz, türevinizin 0 olduğu ve dışbükey bir fonksiyon olduğu için en uygun olduğunuzu not edeceğim.

Bu prosedür hakkında iki sorum var:

  1. Bu standart IRLS algoritması mı? Konuyla ilgili birkaç makale okuduktan sonra (ve çok dağınık ve IRLS'nin ne olduğu hakkında belirsizlerdi) bulabileceğim algoritmanın en tutarlı tanımı. İnsanlar isterse kağıtları gönderebilirim, ama aslında burada kimseye önyargılı olmak istemedim. Tabii ki, bu temel tekniği vektör 'leri ve | x i - m ( k ) | , bağımsız değişkeni sağlamak parametrelerinizin afin fonksiyonunun bir normudur. Bu konuda herhangi bir yardım ya da fikir harika olurdu.xi|xim(k)|
  2. Yakınsama pratikte işe yarıyor gibi görünüyor, ancak bununla ilgili birkaç endişem var. Henüz bir kanıt görmedim. Bazı basit Matlab simülasyonlarından sonra bunun tekrarı bir daralma eşlemesi olmadığını görüyorum ( iki rasgele örneğini oluşturdum ve | m 1 ( k + 1 ) - m 2 ( k + 1 ) |mve bunun zaman zaman 1'den büyük olduğunu gördüm). Ayrıca birkaç ardışık yineleme ile tanımlanan eşleme kesinlikle bir daralma eşlemesi değildir, ancak Lipschitz sabitinin 1'in üzerinde olma olasılığı çok düşük olur. Olasılıktabirkasılma eşlemesikavramı varmı? Bunun birleştiğini kanıtlamak için kullanacağım makineler nelerdir? Hatta birleşiyor mu?|m1(k+1)m2(k+1)||m1(k)m2(k)|

Herhangi bir rehberlik yardımcı olur.

Düzenleme: Daubechies ve arkadaşları tarafından seyrek kurtarma / sıkıştırma algılama için IRLS kağıdını seviyorum. 2008 arXiv'de "İlerici Olarak Yeniden Ağırlıklandırılmış En Küçük Kareler Seyrek İyileştirme için Minimizasyon". Ancak daha çok dışbükey olmayan problemlerin ağırlıklarına odaklanıyor gibi görünüyor. Benim durumum oldukça basit.


IRWLS'deki wiki sayfasına baktığımda, tarif ettiğin prosedür ile IRWLS arasındaki farka meydan okuyorum (sadece , kendi ρ fonksiyonu olarak). Önerdiğiniz algoritmanınIRWLS'denfarklıolduğunu düşündüğünüz gibi açıklayabilir misiniz? |yixxiββ|2ρ
user603

Farklı olduğunu hiç söylemedim ve ima ettiğimde bunu kastetmedim.
Chris A.

Yanıtlar:


10

İlk sorunuza gelince, kişi "standart" ı tanımlamalı ya da yavaş yavaş "kanonik bir model" oluşturulduğunu kabul etmelidir. Belirtilen bir yorumda, en azından IRWLS kullanım şeklinizin oldukça standart olduğu görülmektedir.

İkinci sorunuza gelince, "olasılıkta kasılma eşlemesi", "özyinelemeli stokastik algoritmaların" yakınsamasına bağlanabilir (ancak gayri resmi olarak). Okuduğum kadarıyla, özellikle Mühendislik alanında bu konuda büyük bir literatür var. İktisatta küçük bir miktar kullanıyoruz, özellikle Lennart Ljung'un seminal çalışmaları - ilk makale Ljung (1977) idi - bu, özyinelemeli bir stokastik algoritmanın yakınsamasının (veya olmamasının) kararlılıkla (veya ilgili) diferansiyel denklemin.

(yorumlarda OP ile verimli bir tartışma yapıldıktan sonra yeniden çalışıldı)

yakınsama

Referans olarak Saber Elaydi "Fark Denklemlerine Giriş", 2005, 3d ed. Analiz, belirli bir veri örneği üzerinde koşulludur, bu nedenle sabit kabul edilir. xs

, m ( k + 1 ) = N i = 1 v i [ m ( k ) ] x i cinsinden yinelemeli işlev olarak görülen objektif işlevin en aza indirilmesi için birinci dereceden koşul ,m

m(k+1)=i=1Nvi[m(k)]xi,vi[m(k)]wi[m(k)]i=1Nwi[m(k)][1]

sabit bir noktaya (objektif fonksiyonun argminine) sahiptir. Teoreminin 1.13 s Elaydi 27-28, ile ilgili olarak, ilk türev halinde arasında RHS bölgesinin [ 1 ] , sabit nokta değerlendirildi m, * , bu ifade bir ' ( m, * ) , mutlak değer olarak birden daha küçüktür , o zaman m * olduğu asimptotik stabil (AS). Daha fazla Teorem 4.3 s.179'a göre, bunun aynı zamanda sabit noktanın eşit olarak AS (UAS) olduğu anlamına gelir . "Asimptotik olarak kararlı", sabit nokta etrafındaki bazı değerler aralığı için, bir mahalle ( m m[1]mA(m)m
, boyut olarak küçük olması gerekmez, sabit noktacaziptirve bu nedenle algoritma bu mahallede değerler verirse, birleşecektir. "Tekdüze" özellik, bu mahallenin sınırının ve dolayısıyla büyüklüğünün algoritmanın başlangıç ​​değerinden bağımsız olduğu anlamına gelir. Sabit nokta haleküreselise, UAS γ = . Yani bizim durumumuzda, bunu kanıtlarsak(m±γ)γ=

|A(m)||i=1Nvi(m)mxi|<1[2]

UAS mülkünü kanıtladık, ancak küresel yakınlaşma olmadan. Daha sonra, çekim mahallesinin aslında tüm genişletilmiş gerçek sayılar olduğunu veya OP'nin yorumlarda belirtildiği gibi kullandığı spesifik başlangıç ​​değerinin (ve IRLS yönteminde standart olduğu), yani örnek ortalama olduğunu belirlemeye çalışabiliriz. ait 'ler, ˉ x , daima sabit noktanın çekim mahalle aittir.xx¯

v i ( m ) türevini hesaplıyoruz

vi(m)m=wi(m)mi=1Nwi(m)wi(m)i=1Nwi(m)m(i=1Nwi(m))2

Daha sonra

=1i=1Nwi(m)[wi(m)mvi(m)i=1Nwi(m)m]

A(m)=1i=1Nwi(m)[i=1Nwi(m)mxi(i=1Nwi(m)m)i=1Nvi(m)xi]

=1i=1Nwi(m)[i=1Nwi(m)mxi(i=1Nwi(m)m)m]

ve

|A(m)|<1|i=1Nwi(m)m(xim)|<|i=1Nwi(m)|[3]

sahibiz

wi(m)m=ρ(|xim|)xim|xim||xim|+xim|xim|ρ(|xim|)|xim|2=xim|xim|3ρ(|xim|)ρ(|xim|)xim|xim|2=xim|xim|2[ρ(|xim|)|xim|ρ(|xim|)]=xim|xim|2[wi(m)ρ(|xim|)]

Inserting this into [3] we have

|i=1Nxim|xim|2[wi(m)ρ(|xim|)](xim)|<|i=1Nwi(m)|

|i=1Nwi(m)i=1Nρ(|xim|)|<|i=1Nwi(m)|[4]

This is the condition that must be satisfied for the fixed point to be UAS. Since in our case the penalty function is convex, the sums involved are positive. So condition [4] is equivalent to

i=1Nρ(|xim|)<2i=1Nwi(m)[5]

If ρ(|xim|) is Hubert's loss function, then we have a quadratic (q) and a linear (l) branch,

ρ(|xim|)={(1/2)|xim|2|xim|δδ(|xim|δ/2)|xim|>δ

and

ρ(|xim|)={|xim||xim|δδ|xim|>δ

ρ(|xim|)={1|xim|δ0|xim|>δ

{wi,q(m)=1|xim|δwi,l(m)=δ|xim|<1|xim|>δ

Since we do not know how many of the |xim|'s place us in the quadratic branch and how many in the linear, we decompose condition [5] as (Nq+Nl=N)

i=1Nqρq+i=1Nlρl<2[i=1Nqwi,q+i=1Nlwi,l]

Nq+0<2[Nq+i=1Nlwi,l]0<Nq+2i=1Nlwi,l

which holds. So for the Huber loss function the fixed point of the algorithm is uniformly asymptotically stable, irrespective of the x's. We note that the first derivative is smaller than unity in absolute value for any m, not just the fixed point.

What we should do now is either prove that the UAS property is also global, or that, if m(0)=x¯ then m(0) belongs to the neighborhood of attraction of m.


Thanks for the response. Give me some time to analyze this answer.
Chris A.

Certainly. After all, the question waited 20 months.
Alecos Papadopoulos

Yeah, I was reminded of the problem and decided to put up a bounty. :)
Chris A.

Lucky me. I wasn't there 20 months ago - I would have taken up this question, bounty or not.
Alecos Papadopoulos

Thanks so much for this response. It's looking like, so far, that you've earned the bounty. BTW, your indexing on the derivative of vi w.r.t m is notationally weird. Couldn't the summations on the second line of this use another variable, such as j?
Chris A.
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.