Kalman filtresindeki olasılık neden daha pürüzsüz sonuçlar yerine filtre sonuçları kullanılarak hesaplanıyor?

11

Kalman filtresini çok standart bir şekilde kullanıyorum. Sistem durumu denklem ile temsil edilir $x_{t+1}=Fx_{t}+v_{t+1}$ ve gözlem denklemi $y_{t}=Hx_{t}+Az_{t}+w_{t}$ .

Ders kitapları öğrettikleri Kalman filtresi uygulayarak ve "tek adım önde aldıktan sonra $\hat{x}_{t|t-1}$ (veya "filtrelenmiş tahmin"), olasılık işlevini hesaplamak için bunları kullanmalıyız:

$f_{y_{t}|\mathcal{I}_{t-1},z_{t}}\left(y_{t}|\mathcal{I}_{t-1},z_{t}\right)=\det\left[2\pi\left(HP_{t|t-1}H^{\prime}+R\right)\right]^{-\frac{1}{2}}\exp\left\{ -\frac{1}{2}\left(y_{t}-H\hat{x}_{t|t-1}-Az_{t}\right)^{\prime}\left(HP_{t|t-1}H^{\prime}+R\right)^{-1}\left(y_{t}-H\hat{x}_{t|t-1}-Az_{t}\right)\right\}$

Benim sorum: Olasılık fonksiyonu neden "düzeltilmiş tahmin" değil, " filtrelenmiş tahmin" hesaplanıyor ? Is not durum vektörünün daha iyi bir tahmin? $\hat{x}_{t|t-1}$ $\hat{x}_{t|T}$ $\hat{x}_{t|T}$

likelihood kalman-filter

— Gustavo Amarante
kaynak

Başlığı daha bilgilendirici olacak şekilde düzenledim.

— Juho Kokkala

5

Sorunuzu cevaplamak için: düzeltme yoğunluğunu kullanabilirsiniz. Ama zorunda değilsin. Jarle Tufto'nun cevabı kullandığınız ayrışmaya sahip. Ama başkaları da var.

Kalman Özyinelemeleri Kullanma

Burada olasılığı

f (y_{1}, \dots, y_{n}) = f (y_{1}) \prod_{i = 2}^{n} f (y_{i} | y_{1}, \dots, y_{i - 1}) .

$f(y_1, \ldots, y_n) = f(y_1)\prod_{i=2}^nf(y_i|y_1, \ldots, y_{i-1}).$

Bununla birlikte, ortalamalar ve varyanslar genel olarak olasılık dağılımlarını her zaman tam olarak tanımlamaz. Aşağıdaki Eğer dağılımlarını filtreleme gitmek için kullanmakta olduğunuz ayrışma olduğunu koşullu olasılıklarının : $f(x_{i-1}|y_1,\ldots,y_{i-1})$ $f(y_i|y_1,\ldots,y_{i-1})$

\begin{matrix} (1) & f (y_{ben} | y_{1}, ..., y_{ben - 1}) = \iint f (y_{ben} | x_{ben}) f (x_{ben} | x_{ben - 1}) f (x_{ben - 1} | y_{1}, ..., y_{ben - 1}) d x_{ben} d x_{ben - 1} . \end{matrix}

$f(y_i|y_1, \ldots, y_{i-1}) = \iint f(y_i|x_i)f(x_i|x_{i-1})f(x_{i-1}|y_1, \ldots, y_{i-1})dx_{i} dx_{i-1} \tag{1}.$

Burada durum geçiş yoğunluğu ... modelin bir parçasıdır ve yine gözlem yoğunluğu ... modelin bir parçasıdır. Sorunuzda bunları ve $f(x_i|x_{i-1})$ $f(y_i|x_i)$ $x_{t+1}=Fx_{t}+v_{t+1}$ $y_{t}=Hx_{t}+Az_{t}+w_{t}$ sırasıyla. Aynı şey.

Bir adım önde durum tahmini dağılımı elde ettiğinizde, bu hesaplar . Tekrar entegre ettiğinizde, (1) 'i tamamen elde edersiniz. Bu yoğunluğu sorunuza tamamen yazıyorsunuz ve aynı şey. $\int f(x_i|x_{i-1})f(x_{i-1}|y_1, \ldots, y_{i-1}) dx_{i-1}$

Burada sadece olasılık dağılımlarının ve model hakkındaki varsayımların ayrıştırmasını kullanıyorsunuz. Bu olabilirlik hesabı kesin bir hesaplamadır. Bunu daha iyi veya daha kötü yapmak için kullanabileceğiniz isteğe bağlı bir şey yoktur.

EM Algoritmasını Kullanma

Bildiğim kadarıyla, bu tür bir durum uzay modelinde olasılığı doğrudan değerlendirmenin başka bir yolu yoktur. Ancak, yine de farklı bir işlevi değerlendirerek maksimum olasılık tahmini yapabilirsiniz: EM algoritmasını kullanabilirsiniz. Beklenti adımında (E-Adımı) Burada

\int f (x_{1}, ..., x_{n} | y_{1}, ... y_{n}) günlük f (y_{1}, ..., y_{n}, x_{1}, ..., x_{n}) d x_{1 : n} = E_{s m Ö Ö t h} [günlük f (y_{1}, ..., y_{n}, x_{1}, ..., x_{n})] .

$\int f(x_1, \ldots, x_n|y_1,\ldots y_n) \log f(y_1,\ldots,y_n,x_1, \ldots,x_n) dx_{1:n} = E_{smooth}[\log f(y_1,\ldots,y_n,x_1, \ldots,x_n)].$

f (y_{1}, \dots, y_{n}, x_{1}, \dots, x_{n})

$f(y_1,\ldots,y_n,x_1, \ldots,x_n)$ "tam veri" olasılığıdır ve eklem yumuşatma yoğunluğu ile ilgili günlüğün beklentisini alıyorsunuz demektir. Sık sık olan şey şu ki, bu tam veri olasılığının günlüğünü alıyorsanız, terimler toplamlara ayrılır ve beklenti operatörünün doğrusallığı nedeniyle, marjinal yumuşatma dağılımları ( Sorunuzda bahsediyorsunuz).

Diğer şeyler

EM'nin olasılığını en üst düzeye çıkarmak için "daha kararlı" bir yol olduğunu okudum, ama bu noktanın gerçekten iyi tartışıldığını hiç görmedim, ne de bu kelimeyi "kararlı" olarak tanımladım, ama aynı zamanda bunu daha fazla incelemedi. Bu algoritmaların hiçbiri yerel / küresel maksimum çare bulmak değildir. Şahsen Kalman'ı alışkanlıktan daha sık kullanma eğilimindeyim.

Devletin düzeltilmiş tahminlerinin tipik olarak filtrelemekten daha küçük varyansa sahip olduğu doğrudur, bu yüzden sanırım bu konuda bir sezgiye sahip olursunuz, ancak gerçekten durumları kullanmıyorsunuzdur. En üst düzeye çıkarmaya çalıştığınız olasılık, devletlerin bir işlevi değildir.

— Taylor
kaynak

KF ve EM ne kadar farklıdır? Sonunda aynı şeyi belirsiz şekilde görüyorlar.

— Mitch

1

@Mitch muhtemelen bir yorumdan daha fazlasını hak eden bir şey. KF ile hangi genel amaçlı optimize ediciyi kullandığınıza ve ne tür EM kullandığınıza bağlı olacaktır. Bakmadan çok emin olmayacağım.

— Taylor

7

Genel olarak, ürün kuralı ile kesin olasılık olarak yazılabilir Durum uzayı modelinin varsayımından , geçmiş gözlemlere bağlı her bir beklenti vektörü ve varyans matrisi

f (y_{1}, ..., y_{n}) = f (y_{1}) Π_{ben = 2}^{n} f (y_{ben} | y_{1}, ..., y_{ben - 1}) .

$f(y_1,\dots,y_n)=f(y_1)\prod_{i=2}^n f(y_i|y_1,\dots,y_{i-1}).$

y_{i}

$y_i$

ve

\begin{aligned} E (y_{ben} | y_{1}, ..., y_{ben - 1}) & = E ('H x_{t} + bir z_{t} + w_{t} | y_{1}, ..., y_{ben - 1}) \\ ='H E (x_{t} | y_{1}, ..., y_{ben - 1}) + bir z_{t} + E w_{t} \\ ='H {\hat{x}}_{t | t - 1} + bir z_{t}, \end{aligned}

$\begin{align} E(y_i|y_1,\dots,y_{i-1}) &= E(Hx_{t}+Az_{t}+w_{t}|y_1,\dots,y_{i-1}) \\&= HE(x_{t}|y_1,\dots,y_{i-1})+Az_{t}+Ew_{t} \\&= H\hat x_{t|t-1}+Az_{t}, \end{align}$

Böylece bu, herhangi bir düzeltilmiş hesaplamayı hesaplamadan kesin olasılığı verir.

\begin{aligned} V bir r (y_{ben} | y_{1}, ..., y_{ben - 1}) & = V bir r ('H x_{t} + bir z_{t} + w_{t} | y_{1}, ..., y_{ben - 1}) \\ ='H V bir r (x_{t} | y_{1}, ..., y_{ben - 1}) {'H}^{'} + V bir r w_{t} \\ ='H P_{t | t - 1} {'H}^{'} + R, . \end{aligned}

$\begin{align} \mathrm{Var}(y_i|y_1,\dots,y_{i-1}) &= \mathrm{Var}(Hx_{t}+Az_{t}+w_{t}|y_1,\dots,y_{i-1}) \\&= H\mathrm{Var}(x_{t}|y_1,\dots,y_{i-1})H'+ \mathrm{Var}w_t \\&= HP_{t|t-1}H'+R. \end{align}$

$y_i$

— Jarle Tufto
kaynak

0

"Neden" düzgünleştirme dağılımının (tipik olarak) kullanılmadığı konusunda daha iyi bir yanıtın verimlilik olduğunu düşünüyorum. Prensipte, (ayrılık) marjinal olasılığını, bir kereye mahsus bırakma anlamında hesaplamak basittir. Gözlem j'yi silin, kalan verilerde Kalman'ı daha düzgün çalıştırın. Sonra görünmeyen y (j) olasılığını değerlendirin. Bunu tüm j için tekrarlayın. Günlük olasılıklarını toplayın. Bunun daha hızlı sürümleri, dışarıda bırakılan örneklerin (rastgele) bloklarıyla (k-katlamalı CV gibi) çalışır. Bu şemanın, Kalman filtresinin / düzleştiricisinin, gerektiğinde ölçüm güncellemelerini keyfi olarak atlayabilecek daha genel bir uygulamasını gerektirdiğine dikkat edin. Geri / yumuşatma geçişi ölçümlere erişmez (RTS algoritması yine de) ve aynı kalır.

Zaman serisi "yeterince uzun" ise, filtreleme olasılığı başlangıçtaki geçici süresini "yaktığı" için bunu yapmanın pek bir yararı yoktur. Ancak veri kümesi kısaysa, daha pahalı düzleştirme olasılığı buna değer olabilir. Sabit gecikmeli bir pürüzsüz, aradaki bir çözüm olabilir.

— Threepwood
kaynak