Yeni gözlem akışı olarak MLE'yi tekrar tekrar güncelleme


15

Genel Soru

İstatistiksel bağımsız veri var ki x1 , x2 ..., . Biz yinelemeli en çok olabilirlik tahmini hesaplamak istediğiniz streaming \ boldsymbol {\ teta} . Yani, \ mathbb {R} ^ p} {\ arg \ max} \ prod_ {\ hat {\ boldsymbol {\ theta}} _ {n-1} = \ underset {\ boldsymbol {\ theta} \ hesapladı i = 1} ^ {n-1} f (x_i \, | \, \ boldsymbol {\ theta}), yeni bir x_n gözlemliyoruz ve tahmini \ hat {\ boldsymbol {\ theta}} tahminimizi bir şekilde kademeli olarak güncellemek istiyoruz _ {n-1}, \, x_n \ to \ hat {\ boldsymbol {\ theta}} _ {n} sıfırdan başlamak zorunda kalmadan. Bunun için genel algoritmalar var mı?f(x|θ)θθ n - 1 = arg maksimum θ R p , n - 1 Π i = 1 f ( x i

θ^n1=argmaxθRpi=1n1f(xi|θ),
xnθ n - 1 ,
θ^n1,xnθ^n

Oyuncak Örneği

Eğer x1 , x2 , ... N(x|μ,1) , o

μ^n1=1n1i=1n1xiandμ^n=1ni=1nxi,
böylece
μ^n=1n[(n1)μ^n1+xn].


6
Bu sorunun tersini unutmayın: eski gözlemler silindiğinde tahmin ediciyi güncelleme.
19:19 Hong Ooi

Özyinelemeli en küçük kareler (RLS) bu sorunun belirli bir örneğine (çok ünlü) bir çözümdür, değil mi? Genel olarak, stokastik filtreleme literatürünün araştırılmasında faydalı olabileceğine inanıyorum.
jhin

Yanıtlar:


13

Yeterlilik kavramına ve özellikle minimum yeterli istatistiğe bakınız . Çoğu durumda, belirli bir örnek boyutundaki tahmini hesaplamak için tüm numuneye ihtiyacınız vardır, bir boyuttan daha küçük bir örnekten güncelleme yapmak için önemsiz bir yol yoktur (yani uygun bir genel sonuç yoktur).

Dağıtım üstel bir aile ise (ve diğer bazı durumlarda; üniforma düzgün bir örnektir), birçok durumda aradığınız şekilde güncellenebilecek güzel bir istatistik vardır (yani, yaygın olarak kullanılan bir dizi dağıtımda) hızlı güncelleme).

Hesaplamak veya güncellemek için herhangi bir doğrudan yolun farkında olmadığım bir örnek, Cauchy dağılımının konumunun tahminidir (örneğin, birimi basit bir parametre problemi yapmak için birim ölçeği ile). Bununla birlikte, daha önce fark etmediğim daha hızlı bir güncelleme olabilir - güncelleme durumunu dikkate almak için gerçekten bir bakıştan daha fazlasını yaptığımı söyleyemem.

Öte yandan, sayısal optimizasyon yöntemleri ile elde edilen MLE'lerle, önceki tahmin çoğu durumda harika bir başlangıç ​​noktası olacaktır, çünkü tipik olarak önceki tahmin güncellenmiş tahmine çok yakın olacaktır; bu anlamda en azından hızlı güncelleme mümkün olmalıdır. Bu genel durum olmasa bile - multimodal olabilirlik fonksiyonları ile (yine bir örnek için Cauchy'ye bakın), yeni bir gözlem en yüksek modun öncekinden biraz uzak olmasına yol açabilir (her birinin konumu En büyük birkaç modun çok fazla değişmediği, hangisinin en yüksek olduğu iyi değişebilir).


1
Teşekkürler! MLE'nin muhtemelen orta akım değiştirme modları hakkındaki nokta, bunun genel olarak neden zor olacağını anlamak için özellikle yararlıdır.
jcz

1
Yukarıdaki birim ölçekli Cauchy modeli ve verilerle (0.1,0.11,0.12,2.91,2.921,2.933) kendiniz görebilirsiniz. Modların yeri için log olasılığı 0.5 ve 2.5'e yakındır ve (biraz) daha yüksek tepe noktası 0.5'e yakın olanıdır. Şimdi bir sonraki gözlemi (10) yapın ve iki zirvenin her birinin modu zar zor hareket eder, ancak şimdi ikinci zirve önemli ölçüde daha yüksektir. Degrade iniş bu olduğunda size yardımcı olmaz, neredeyse tekrar başlamak gibidir. Nüfusunuz farklı konumlara sahip iki benzer büyüklükteki alt grubun bir karışımıysa, bu tür durumlar oluşabilir -. ...
ctd

ctd ... nispeten büyük bir örnekte bile. Doğru durumda mod değiştirme oldukça sık meydana gelebilir.
Glen_b

n

Evet doğru; Cevapta tartışıp tartışmayacağımı kendimle tartıştım.
Glen_b -Monica

4

Makine öğreniminde buna, çevrimiçi öğrenme .

@ Glen_b'in işaret ettiği gibi, MLE'nin önceki tüm verilere erişmeye gerek kalmadan güncellenebileceği özel durumlar vardır. Ayrıca belirttiği gibi, MLE'yi bulmak için genel bir çözüm olduğuna inanmıyorum.

Yaklaşık çözümü bulmak için oldukça genel bir yaklaşım, stokastik degrade iniş gibi bir şey kullanmaktır. Bu durumda, her gözlem geldiğinde, gradyanı bu bireysel gözlemle ilgili olarak hesaplar ve parametre değerlerini bu yönde çok küçük bir miktarda hareket ettiririz. Belirli koşullar altında, bunun yüksek olasılıkla MLE'nin bir mahallesine yaklaşacağını gösterebiliriz; mahalle adım boyutunu küçülttüğümüz için daha sıkı ve daha sıkıdır, ancak yakınsama için daha fazla veri gerekir. Bununla birlikte, bu stokastik yöntemler genel olarak iyi performans elde etmek için, örneğin, kapalı form güncellemelerinden çok daha fazla uğraşmayı gerektirir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.