İlk sorunuza gelince, kişi "standart" ı tanımlamalı ya da yavaş yavaş "kanonik bir model" oluşturulduğunu kabul etmelidir. Belirtilen bir yorumda, en azından IRWLS kullanım şeklinizin oldukça standart olduğu görülmektedir.
İkinci sorunuza gelince, "olasılıkta kasılma eşlemesi", "özyinelemeli stokastik algoritmaların" yakınsamasına bağlanabilir (ancak gayri resmi olarak). Okuduğum kadarıyla, özellikle Mühendislik alanında bu konuda büyük bir literatür var. İktisatta küçük bir miktar kullanıyoruz, özellikle Lennart Ljung'un seminal çalışmaları - ilk makale Ljung (1977) idi - bu, özyinelemeli bir stokastik algoritmanın yakınsamasının (veya olmamasının) kararlılıkla (veya ilgili) diferansiyel denklemin.
(yorumlarda OP ile verimli bir tartışma yapıldıktan sonra yeniden çalışıldı)
yakınsama
Referans olarak Saber Elaydi "Fark Denklemlerine Giriş", 2005, 3d ed.
Analiz, belirli bir veri örneği üzerinde koşulludur, bu nedenle sabit kabul edilir. x′s
,
m ( k + 1 ) = N ∑ i = 1 v i [ m ( k ) ] x i cinsinden yinelemeli işlev olarak görülen objektif işlevin en aza indirilmesi için birinci dereceden koşul ,m
m(k+1)=∑i=1Nvi[m(k)]xi,vi[m(k)]≡wi[m(k)]∑Ni=1wi[m(k)][1]
sabit bir noktaya (objektif fonksiyonun argminine) sahiptir. Teoreminin 1.13 s Elaydi 27-28, ile ilgili olarak, ilk türev halinde arasında RHS bölgesinin [ 1 ] , sabit nokta değerlendirildi m, * , bu ifade bir ' ( m, * ) , mutlak değer olarak birden daha küçüktür , o zaman m * olduğu asimptotik stabil (AS). Daha fazla Teorem 4.3 s.179'a göre, bunun aynı zamanda sabit noktanın eşit olarak AS (UAS) olduğu anlamına gelir .
"Asimptotik olarak kararlı", sabit nokta etrafındaki bazı değerler aralığı için, bir mahalle ( m ∗m[1]m∗A′(m∗)m∗
, boyut olarak küçük olması gerekmez, sabit noktacaziptirve bu nedenle algoritma bu mahallede değerler verirse, birleşecektir. "Tekdüze" özellik, bu mahallenin sınırının ve dolayısıyla büyüklüğünün algoritmanın başlangıç değerinden bağımsız olduğu anlamına gelir. Sabit nokta haleküreselise, UAS γ = ∞ .
Yani bizim durumumuzda, bunu kanıtlarsak(m∗±γ)γ=∞
|A′(m∗)|≡∣∣∣∣∑i=1N∂vi(m∗)∂mxi∣∣∣∣<1[2]
UAS mülkünü kanıtladık, ancak küresel yakınlaşma olmadan. Daha sonra, çekim mahallesinin aslında tüm genişletilmiş gerçek sayılar olduğunu veya OP'nin yorumlarda belirtildiği gibi kullandığı spesifik başlangıç değerinin (ve IRLS yönteminde standart olduğu), yani örnek ortalama olduğunu belirlemeye çalışabiliriz. ait 'ler, ˉ x , daima sabit noktanın çekim mahalle aittir.xx¯
∂ v i ( m ∗ ) türevini hesaplıyoruz
∂vi(m∗)∂m=∂wi(m∗)∂m∑Ni=1wi(m∗)−wi(m∗)∑Ni=1∂wi(m∗)∂m(∑Ni=1wi(m∗))2
Daha sonra
=1∑Ni=1wi(m∗)⋅[∂wi(m∗)∂m−vi(m∗)∑i=1N∂wi(m∗)∂m]
A′(m∗)=1∑Ni=1wi(m∗)⋅[∑i=1N∂wi(m∗)∂mxi−(∑i=1N∂wi(m∗)∂m)∑i=1Nvi(m∗)xi]
=1∑Ni=1wi(m∗)⋅[∑i=1N∂wi(m∗)∂mxi−(∑i=1N∂wi(m∗)∂m)m∗]
ve
|A′(m∗)|<1⇒∣∣∣∣∑i=1N∂wi(m∗)∂m(xi−m∗)∣∣∣∣<∣∣∣∣∑i=1Nwi(m∗)∣∣∣∣[3]
sahibiz
∂wi(m∗)∂m=−ρ′′(|xi−m∗|)⋅xi−m∗|xi−m∗||xi−m∗|+xi−m∗|xi−m∗|ρ′(|xi−m∗|)|xi−m∗|2=xi−m∗|xi−m∗|3ρ′(|xi−m∗|)−ρ′′(|xi−m∗|)⋅xi−m∗|xi−m∗|2=xi−m∗|xi−m∗|2⋅[ρ′(|xi−m∗|)|xi−m∗|−ρ′′(|xi−m∗|)]=xi−m∗|xi−m∗|2⋅[wi(m∗)−ρ′′(|xi−m∗|)]
Inserting this into [3] we have
∣∣∣∣∑i=1Nxi−m∗|xi−m∗|2⋅[wi(m∗)−ρ′′(|xi−m∗|)](xi−m∗)∣∣∣∣<∣∣∣∣∑i=1Nwi(m∗)∣∣∣∣
⇒∣∣∣∣∑i=1Nwi(m∗)−∑i=1Nρ′′(|xi−m∗|)∣∣∣∣<∣∣∣∣∑i=1Nwi(m∗)∣∣∣∣[4]
This is the condition that must be satisfied for the fixed point to be UAS. Since in our case the penalty function is convex, the sums involved are positive. So condition [4] is equivalent to
∑i=1Nρ′′(|xi−m∗|)<2∑i=1Nwi(m∗)[5]
If ρ(|xi−m|) is Hubert's loss function, then we have a quadratic (q) and a linear (l) branch,
ρ(|xi−m|)=⎧⎩⎨(1/2)|xi−m|2|xi−m|≤δδ(|xi−m|−δ/2)|xi−m|>δ
and
ρ′(|xi−m|)={|xi−m||xi−m|≤δδ|xi−m|>δ
ρ′′(|xi−m|)={1|xi−m|≤δ0|xi−m|>δ
⎧⎩⎨⎪⎪wi,q(m)=1|xi−m|≤δwi,l(m)=δ|xi−m|<1|xi−m|>δ
Since we do not know how many of the |xi−m∗|'s place us in the quadratic branch and how many in the linear, we decompose condition [5] as (Nq+Nl=N)
∑i=1Nqρ′′q+∑i=1Nlρ′′l<2[∑i=1Nqwi,q+∑i=1Nlwi,l]
⇒Nq+0<2[Nq+∑i=1Nlwi,l]⇒0<Nq+2∑i=1Nlwi,l
which holds. So for the Huber loss function the fixed point of the algorithm is uniformly asymptotically stable, irrespective of the x's. We note that the first derivative is smaller than unity in absolute value for any m, not just the fixed point.
What we should do now is either prove that the UAS property is also global, or that, if m(0)=x¯ then m(0) belongs to the neighborhood of attraction of m∗.