Çok değişkenli normal yoğunluklu türev nasıl alınır?


35

Çok değişkenli normal yoğunluğum olduğunu varsayalım. Ikinci (kısmi) türev wrt almak istiyorum . Bir matrisin türevinin nasıl alınacağından emin değil.N(μ,Σ)μ

Wiki, türev elemanını matris içindeki öğeye göre aldığını söylüyor.

Laplace yaklaşımı ile çalışıyorum Mod .

logPN(θ)=logPN12(θθ^)TΣ1(θθ^).

θ^=μ

Bana bu nasıl oldu?

Σ1=2θ2logp(θ^|y),

Yaptıklarım:

logP(θ|y)=k2log2π12log|Σ|12(θθ^)TΣ1(θθ^)

Bu nedenle, türev wt'yi theta'ya alıyorum , ilk önce, bir transpozisyon var, ikincisi bir matris. Bu yüzden sıkışıp kaldım.θ

Not: Profesörüm bununla karşılaşırsa, derse atıfta bulunuyorum.


1
Sorununuzun bir parçası, günlük olabilirlik ifadenizin bir hata yapmış olması olabilir - olması gereken yerde . Ayrıca, herhangi bir şekilde ? |Σ|log(|Σ|)Σ1=2θ2logp(θ|y)
Makro

Evet haklısınız, üzgünüm. Kısmi türev önünde neden olumsuz işaret var?
user1061210

Negatif işaretini açıklığa kavuşturuyordum, çünkü negatif ikinci türev, genellikle ilgi çekici olan gözlemlenen balıkçı bilgileridir. Ayrıca, kendi buluyorum:2θ2logp(θ|y)=Σ1
Makro

Peki, kesikli / sürekli fonksiyon için genel prosedür nedir? Günlükleri alın, Taylor genişleme formuna yazın, iki kez wrt ayırt edin . Fisher bilgisi genellikle diğer yoğunlukların çoğunda doğru değildir, değil mi? θ
user1061210

3
@ kullanıcı Belirttiğim gibi, logaritmanın ikinci türevi pozitif olmayan öz değerlere sahip olmalıdır . Evet, varyanslar ve negatif ikinci kısmi türevler arasında, maksimum olabilirlik tahmini teorisi, Fisher bilgisi, vb., Ortaya koyduğu gibi, bağlantılar vardır - Makro, bu yorumlarda daha önce bahsetti.
whuber

Yanıtlar:


66

Matrix Yemek Kitabının 2. bölümünde , çok değişkenli Gauss olasılığını ayırt etmeye yardımcı olacak kurallar da dahil olmak üzere olasılık ve istatistik yaparken karşılaşılabilecek sorunlara yardımcı olacak birçok yararlı kimlik veren matris matematiği işlerinin güzel bir derlemesi bulunmaktadır.

Ortalama vektör ve covariance matrix ile normal değişken olan rastgele bir vektörünüz varsa , bu gradyanı bulmak için matris yemek denklemi (86) kullanın. ye göre log olasılığıyμΣLμ

Lμ=12((yμ)Σ1(yμ)μ)=12(2Σ1(yμ))=Σ1(yμ)

Bunu tekrar ayırt etmek ve cevabını bulmak için size bırakacağım .Σ1

"Ekstra kredi" olarak, ye göre degradenin uygun olduğunu bulmak için (57) ve (61) denklemlerini kullanın.Σ

LΣ=12(log(|Σ|)Σ+(yμ)Σ1(yμ)Σ)=12(Σ1Σ1(yμ)(yμ)Σ1)

Çok fazla adım atmıştım, ancak bu türevlemeyi yalnızca matris yemek kitabında bulunan kimlikleri kullanarak yaptım, bu yüzden boşlukları doldurmak için size bırakacağım.

Bu puan denklemlerini maksimum olasılık tahmini için kullandım, bu yüzden doğru olduklarını biliyorum :)


4
Büyük referans - kendim önerecektim. Matris cebirini bilmeyen biri için iyi bir pedagojik referans değil. Asıl zorluk, aslında çalışmaktan kaynaklanıyor . Gerçek bir acı. Σ
Olasılık

3
Matris analizinde bir başka iyi kaynak ise Magnus & Neudecker, amazon.com/…
StasK

2
Denklemin referans numarası değiştirildi (belki yeni bir sürümden dolayı). Yeni referans denklemi 86'dır.
goelakash

2
Burada temel dışı olabilirim ama bu formülün doğru olduğunu sanmıyorum. Bunu gerçek örneklerle kullanıyorum ve sonlu farklılıklarına bakıyorum. formülü , diyagonal girişler için doğru değerleri veriyor gibi görünüyor. Bununla birlikte, diyagonal olmayan girişler olması gerekenin yarısıdır. LΣ
jjet

5

daki tekrarlanan öğelere özen gösterdiğinizden emin olmanız gerekir , aksi takdirde türevler yanlış olur. Örneğin, (141) Matrix Yemek Kitabı , simetrik bir için aşağıdaki türevleri verir.ΣΣ

log|Σ|Σ=2Σ1(Σ1I)

Ve (14), kovaryans matrisi fonksiyonlarının Farklılaşma verir

trace(Σ1xx)Σ=2Σ1xxΣ1+(Σ1xxΣ1I)

burada Hadmard ürünü anlamına gelir, ve kolaylık sağlamak için tanımlanmış .x:=yμ

Özellikle, bunun ın simetrikliğinin empoze edilmemesiyle aynı olmadığını unutmayın. Sonuç olarak buna sahibiz.Σ

LΣ=Σ12(Dlog|2π|+log|Σ|+xΣ1x))=Σ12(log|Σ|+trace(Σ1xx))=12(2Σ1(Σ1I)2Σ1xxΣ1+(Σ1xxΣ1I))

burada boyutunu belirtmektedir , ve ve türev0DxyμDlog|2π|

Bu olmasını sağlar elemanı tekabül etmek .i,jthLΣLΣij


0

@ Macro'nun cevabını hesaplamalı olarak doğrulamaya çalıştım ama kovaryans çözümünde küçük bir hata gibi görünen şeyleri buldum. O elde edilen Ancak doğru çözümün aslında olduğu anlaşılıyor. Aşağıdaki R betiği, öğelerinin her bir öğesi için sonlu farkın hesaplandığı basit bir örnek sunar . O göstermektedir

LΣ=12(Σ1Σ1(yμ)(yμ)Σ1)=A
B=2Adiag(A)
ΣAHer giriş için doğru, sadece çapraz elemanlar için doğru cevap sağlar .B
library(mvtnorm)

set.seed(1)

# Generate some parameters
p <- 4
mu <- rnorm(p)
Sigma <- rWishart(1, p, diag(p))[, , 1]

# Generate an observation from the distribution as a reference point
x <- rmvnorm(1, mu, Sigma)[1, ]

# Calculate the density at x
f <- dmvnorm(x, mu, Sigma)

# Choose a sufficiently small step-size
h <- .00001

# Calculate the density at x at each shifted Sigma_ij
f.shift <- matrix(NA, p, p)
for(i in 1:p) {
  for(j in 1:p) {
    zero.one.mat <- matrix(0, p, p)
    zero.one.mat[i, j] <- 1
    zero.one.mat[j, i] <- 1

    Sigma.shift <- Sigma + h * zero.one.mat
    f.shift[i, j] <- dmvnorm(x, mu, Sigma.shift)
  }
}

# Caluclate the finite difference at each shifted Sigma_ij
fin.diff <- (f.shift - f) / h

# Calculate the solution proposed by @Macro and the true solution
A <- -1/2 * (solve(Sigma) - solve(Sigma) %*% (x - mu) %*% t(x - mu) %*% solve(Sigma))
B <- 2 * A - diag(diag(A))

# Verify that the true solution is approximately equal to the finite difference
fin.diff
A * f
B * f

Yorumun için teşekkür ederim. Gösterimi diğerlerinden farklı olarak yorumladığınıza inanıyorum, çünkü eşzamanlı olarak köşegen unsurlarını eşleştiren çiftleri değiştiriyorsunuz , böylece değişimin etkisi iki katına çıkıyor. Sonuç olarak, bir işlem olan çoklu bir yönlü türevinin. Orada bir şekilde sürece Macro'nun solüsyonu ile küçük bir sorun gibi görünmüyor devrik alınması gerektiğini - ama bu simetrik matrisler için başvuruda hiçbir şeyi değiştirmeyecek. Σ
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.