Çok değişkenli normal dağılımın koşullu dağılımlarını türetmek


114

Çok değişkenli normal bir vektörümüz var YN(μ,Σ) . Bölümleme düşünün μ ve Y içine

μ=[μ1μ2]
Y=[y1y2]

Benzer bir bölüme sahip Σ içine

[Σ11Σ12Σ21Σ22]
Daha sonra, (y1|y2=a) , ikinci verilen birinci bölümün koşullu dağılımı, N(μ¯,Σ¯) , ortalama
μ¯=μ1+Σ12Σ221(aμ2)
ve kovaryans matrisi
Σ¯=Σ11Σ12Σ221Σ21

Aslında bu sonuçlar Wikipedia'da da sunuluyor ancak \ overline {\ boldsymbol \ mu}μ¯ ve Σ¯ türevlerinin nasıl elde edildiği hakkında hiçbir fikrim yok . Bu sonuçlar çok önemlidir, çünkü Kalman filtrelerinin türetilmesi için önemli istatistiksel formüllerdir . Birisi bana μ¯ ve \ overline {\ Sigma} türetme adımlarını atar Σ¯mı? Çok teşekkür ederim!


24
Buradaki fikir koşullu yoğunluk tanımını kullanmak . Sen eklem biliyoruz iki değişkenli normaldir ve marjinal olduğunu normal olduğunu o zaman sadece değerlerin yerine ve hoş olmayan cebir yapmak zorundayız. Bu notlar biraz yardımcı olabilir. İşte tam kanıtı. f(y1|y2=a)=fY1,Y2(y1,a)fY2(a)fY1,Y2fY2

1
İkinci bağlantınız soruyu cevaplar (+1). Neden @Procrastinator bir cevap koymadı?
gui11aume

1
Farkında değildim, ancak sanırım bu denklemi koşullu bir PCA'da kullanıyorum. Koşullu PCA bir dönüşüm seçeneği gerektiriyor , bazı A seçenekleriyle verilen koşullu kovaryans matrisini etkin bir şekilde hesaplıyor(IA(AA)1A)Σ
John

@Procrastinator - yaklaşımınız aslında Woodbury matrisi kimliği ve blok şeklinde matris inversiyonu bilgisi gerektirir. Bunlar gereksiz yere karmaşık matris cebiri ile sonuçlanır.
Olasılık

2
@probabilityislogic Aslında verdiğim bağlantıda sonuç kanıtlanmıştır. Ancak, diğer yöntemlerden daha karmaşık bulursanız, saygıdeğerdir. Buna ek olarak, benim de optimal çözüm sağlamak için teşebbüs etmemek comment . Ayrıca, yorumum Macro'nun cevabından önceydi (gördüğünüz gibi oy kullandım).

Yanıtlar:


111

Yorumlarda Procrastinator'ın bağlantısında (+1) olduğu gibi koşullu yoğunluğu kaba kuvvetle açıkça hesaplayarak kanıtlayabilirsiniz. Ancak, çok değişkenli normal dağılımın tüm koşullu dağılımlarının normal olduğunu söyleyen bir teorem var. Bu nedenle, geriye kalan tek şey ortalama vektör ve kovaryans matrisini hesaplamak. Bunu, üniversitedeki bir zaman serisi sınıfında üçüncü bir değişkeni zekice tanımlayarak ve sonucunu bağlantıdaki kaba kuvvet çözümünden daha basit bir şekilde türetmek için kullanarak (matris cebirinde rahat olduğunuz sürece) kullanarak türettiğimizi hatırlıyorum. Bellekten gidiyorum ama böyle bir şeydi:


Let olmak ilk bölüm ve ikinci. Şimdi tanımlayın burada . Şimdi yazabilirizx1x2z=x1+Ax2A=Σ12Σ221

cov(z,x2)=cov(x1,x2)+cov(Ax2,x2)=Σ12+Avar(x2)=Σ12Σ12Σ221Σ22=0

Bu nedenle, ve birbirleriyle ilişkili değildir ve ortak normal oldukları için bağımsızdırlar . Şimdi, açıkça , bu nedenle şunu izlerzx2E(z)=μ1+Aμ2

E(x1|x2)=E(zAx2|x2)=E(z|x2)E(Ax2|x2)=E(z)Ax2=μ1+A(μ2x2)=μ1+Σ12Σ221(x2μ2)

hangi ilk bölümünü kanıtlıyor. Kovaryans matrisi için, not edin

var(x1|x2)=var(zAx2|x2)=var(z|x2)+var(Ax2|x2)Acov(z,x2)cov(z,x2)A=var(z|x2)=var(z)

Şimdi neredeyse bitti:

var(x1|x2)=var(z)=var(x1+Ax2)=var(x1)+Avar(x2)A+Acov(x1,x2)+cov(x2,x1)A=Σ11+Σ12Σ221Σ22Σ221Σ212Σ12Σ221Σ21=Σ11+Σ12Σ221Σ212Σ12Σ221Σ21=Σ11Σ12Σ221Σ21

bu ikinci kısmı kanıtlıyor.

Not: Burada kullanılan matris cebirine aşina olmayanlar için bu mükemmel bir kaynaktır .

Düzenleme: Burada kullanılan bir özellik bu matris yemek kitabında (iyi catch @FlyingPig) kovaryans matrisleri hakkında wikipedia sayfasındaki özellik 6'dır: ki bu iki rastgele vektör için budur , Elbette, skalerlerde, fakat vektörler için matrisler farklı şekilde düzenlendiği sürece farklıdırlar.x,y

var(x+y)=var(x)+var(y)+cov(x,y)+cov(y,x)
cov(X,Y)=cov(Y,X)

Bu mükemmel yöntem için teşekkürler! Bir matris cebiri bana tanıdık gelmiyor, açılış formülünü nerede bulabilirim ? Gönderdiğiniz bağlantıda bulamadım. var(x1+Ax2)
Uçan domuz,

@Flyingpig, bir şey değil. Bunun , Matrix Yemek Kitabında yazılmayan rastgele vektörlerin toplamının varyansının ek bir özelliği ile birleştirilmiş denklemlerin bir sonucu olduğuna inanıyorum. o! (291),(292)
Makro

13
Bu çok iyi bir cevap (+1), ancak yaklaşımın sıralanması açısından geliştirilebilir. Biz lineer kombinasyonu istiyorum diyerek başlamak / bağımsız olan ilintisiz olduğu bütün vektörün . Bunun nedeni, nin ve olduğu gerçeğini kullanabilmemizdir . Bunlar sırasıyla ve ifadelerine yol açar . Bu, almamız gerektiği anlamına gelir . Şimdi . Eğer ters çevrilebilir olup zaman elimizdez=Cx=C1x1+C2x2x2p(z|x2)=p(z)var(z|x2)=var(z)E(z|x2)=E(z)var(C1x1|x2)E(C1x1|x2)C1=Icov(z,x2)=Σ12+C2Σ22=0Σ22C2=Σ12Σ221 .
Olasılık

1
@jakeoung - bu değil kanıtlayan o biz hakkında bilmek istediğiniz değişkenleri içeren bir ifade almak böylece, bu değere ayarlayarak edilir. C1=I
olasılık

1
@jakeoung Ayrıca bu ifadeyi tam olarak anlamadım. Bu şekilde anlıyorum: Eğer , o zaman . Dolayısıyla, değeri bir şekilde isteğe bağlı bir ölçek. Bu yüzden basitlik için . cov(z,x2)=0cov(C11z,x2)=C11cov(z,x2)=0C1C1=I
Ken T,

6

Tarafından cevap Makro harika ama burada şartlı dağılımını iddia herhangi bir dış teoremini kullanmak gerekmez daha basit bir yoldur. Mahanalobis mesafesini koşullandırma ifadesi için argüman değişkenini ayıran bir formda yazmayı ve ardından normal yoğunluğu buna göre çarpanlara almayı içerir.


Mahanalobis mesafesini koşullu bir vektör için yeniden yazma: Bu türetme Schur tamamlayıcısı kullanan bir matris inversiyon formülü kullanır . İlk önce tersine dönme matrisini şöyle yazmak için blockwise inversiyon formülünü kullanırız:ΣS=Σ11Σ12Σ221Σ21

Σ1=[Σ11Σ12Σ21Σ22]1=[Σ11Σ12Σ21Σ22],

nerede:

Σ11=ΣS1 Σ12=ΣS1Σ12Σ221,Σ21=Σ221Σ12ΣS1Σ22=Σ221Σ12ΣS1Σ12Σ221. 

Bu formülü kullanarak artık Mahanalobis mesafesini şu şekilde yazabiliriz:

(yμ)TΣ1(yμ)=[y1μ1y2μ2]T[Σ11Σ12Σ21Σ22][y1μ1y2μ2]=(y1μ1)TΣ11(y1μ1)+(y1μ1)TΣ12(y2μ2)+(y2μ2)TΣ21(y1μ1)+(y2μ2)TΣ22(y2μ2)=(y1(μ1+Σ12Σ221(y2μ2)))TΣS1(y1(μ1+Σ12Σ221(y2μ2)))=(y1μ)TΣ1(y1μ),

nerede:

μμ1+Σ12Σ221(y2μ2),ΣΣ11Σ12Σ221Σ21.

Bu sonucun, rastgele vektörlerin normalliğini kabul etmeyen genel bir sonuç olduğuna dikkat edin. Mahanalobis mesafesini yeniden yapılandırmanın yararlı bir yolunu sunar, böylece ayrıştırmadaki vektörlerden sadece birine göre ikinci dereceli bir form olur (diğeri ortalama vektör ve varyans matrisine emilir).


Koşullu dağılımın türetilmesi: Mahanalobis mesafesi için yukarıdaki forma sahip olduğumuz için gerisi kolaydır. Sahibiz:

p(y1|y2,μ,Σ)y1p(y1,y2|μ,Σ)=N(y|μ,Σ)y1exp(12(yμ)TΣ1(yμ))=exp(12(y1μ)TΣ1(y1μ))y1N(y1|μ,Σ).

Bu, koşullu dağılımın, belirtilen koşullu ortalama vektörü ve koşullu varyans matrisiyle birlikte çok değişkenli normal olduğunu belirler.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.