En küçük kovaryans matrisini bulmak için uygun önlem


10

Okuduğum ders kitabında iki kovaryans matrisi karşılaştırmak için pozitif kesinlik (yarı pozitif kesinlik) kullanmaktadırlar. Fikir, eğer pd ise , küçüktür . Ama bu ilişkinin sezgisini almak için uğraşıyorum?ABBA

Burada benzer bir iplik var:

/math/239166/what-is-the-intuition-for-using-definiteness-to-compare-matrices

Matrisleri karşılaştırmak için kesinlik kullanma sezgisi nedir?

Cevaplar güzel olsa da sezgiye gerçekten değinmiyorlar.

İşte kafa karıştırıcı bulduğum bir örnek:

[1612129][1224]

şimdi farkın belirleyicisi -25 yani ilişki pd hatta psd değil ve bu yüzden ilk matris birinciden daha büyük değil mi?

Hangisinin en küçük olduğunu görmek için iki 3 * 3 kovaryans matrisini karşılaştırmak istiyorum? Öklid normu gibi bir şeyi bunları karşılaştırmak için kullanmak benim için daha sezgisel görünebilir mi? Ancak bu, yukarıdaki ilk matrisin ikinci matikten daha büyük olduğu anlamına gelir. Dahası sadece kovaryans matrislerini karşılaştırmak için kullanılan pd / psd ölçütünü gördüm.

Birisi pd / psd'nin neden öklit normu gibi başka bir ölçü kullanmaktan daha iyi olduğunu açıklayabilir mi?

Ben de bu soruyu matematik forumunda yayınladım (en iyisinin ne olduğundan emin değildim) umarım bu herhangi bir kurala aykırı değildir.

/math/628135/comparing-two-covariance-matrices


2
Sen okumak isteyebilirsiniz , bu pozitif (yarı) kesinlik arkasında sezgi tasavvur edilmektedir. Eğer 2 varyansları karşılaştırdığımızda ave beğer a-bpozitif ise o zaman değişkenliği çıkarmadan üzerine söyleyebilirim bdışına abırakılan bazı "gerçek" değişkenlik kalır a. Benzer şekilde, çok değişkenli varyanslar (= kovaryans matrisler) Ave B. Eğer A-Bbu araçlarının daha sonra pozitif tanımlı A-Bbaşka bir deyişle, kaldırma sırasında: vektörlerin yapılandırma Öklid alan "gerçek" bir Bmesafede A, ikinci hala geçerli bir değişkenliktir.
ttnphns

2
Ne yapmak sen iki kovaryans matrislerinin "en küçük" demek?
whuber

Merhaba whuber, kovaryans matrisleri rakip tahmin edicilerle ilgilidir, en küçük varyansı olan tahmin ediciyi seçmek istiyorum. (Bu bir şeyi aydınlatıyor mu?)
Baz

2
Baz: Öyleyse neden tahmin edicilerin varyanslarını doğrudan karşılaştırmıyorsunuz?
Glen_b

Merhaba orada yöntem ayarlanır, varyans (kovaryans içeren) dedikleri için ifade verilir. Ancak, sadece varyansları karşılaştırsam bile, bu hala matris değerlerini karşılaştırmaya benzer problemleri olacak vektör değerlerini karşılaştırmayı içerecektir?
Baz

Yanıtlar:


8

Bahsettiğiniz matrislerin sıralaması Loewner sırası olarak bilinir ve pozitif belirli matrislerin çalışmasında çok kullanılan kısmi bir düzendir. Pozitif tanımlı (pozdef) matrislerin manifoldu üzerinde geometrinin kitap boyu tedavisi buradadır .

Önce sezgilerle ilgili sorunuzu ele almaya çalışacağım . A (simetrik) matrisi , tüm için ise pozdef'dir . Eğer kovaryans matrisi ile rastgele değişken (RV) olan daha sonra, bazı tek dim alt uzay üzerindeki çıkıntı (orantılı) ve . Bu uygulama İlk olarak, Q: COVAR matrisi ile bir rastgele değişken: ikinci bir kovaryans matrisidir projeleri her yöne kovaryans matrisi ile bir rv daha küçük varyans ileAcTAc0cRnXAcTXVar(cTX)=cTAcABBAA. Bu, bu siparişin sadece kısmi bir sipariş olabileceğini sezgisel olarak netleştirir, çılgınca farklı varyanslarla farklı yönlere yansıyacak birçok rv vardır. Bazı Öklid normuna ilişkin teklifinizin böyle bir doğal istatistiksel yorumu yoktur.

Her iki matris de belirleyici sıfır olduğu için "kafa karıştırıcı örneğiniz" kafa karıştırıcıdır. Yani her biri için, her zaman sıfıra yansıtma yaptıkları bir yön vardır (öz değeri sıfır olan özvektör) . Ancak bu yön iki matris için farklıdır, bu nedenle karşılaştırılamazlar.

Loewner sipariş şekilde tanımlanır , daha kesin daha olumlu ise, posdef olup. Bu kısmi bir düzendir, bazı pozdef matrisler için ne ne de posdef değildir. Bir örneği: bir yolu arasında bunu grafiksel olarak gösteren, iki elipsi olan ancak başlangıç ​​noktasında ortalanmış, matrislerle standart bir şekilde ilişkilendirilmiş bir çizim çizmektedir (daha sonra her yöndeki radyal mesafe, bu yönde projeksiyon varyansı ile orantılıdır):ABBABABAAB

A=(10.50.51),B=(0.5001.5)

Elips olarak gösterilen iki pozdef matrisi

Bu durumda iki elips uyumludur, ancak farklı şekilde döndürülür (aslında açı 45 derecedir). Bu, ve matrislerinin aynı özdeğerlere sahip olmasına karşılık gelir , ancak özvektörler döndürülür.AB

Bu cevap büyük ölçüde elipslerin özelliklerine bağlı olduğundan, aşağıdaki Koşullu Gauss dağılımlarının ardındaki sezgi nedir? elipsleri geometrik olarak açıklamak yardımcı olabilir.

Şimdi matrislerle ilişkili elipslerin nasıl tanımlandığını açıklayacağım. Bir posdef matrisi , kuadratik bir form tanımlar . Bu bir işlev olarak çizilebilir, grafik ikinci dereceden olacaktır. Eğer daha sonra grafik zaman grafiğinin üzerinde olacaktır . Grafikleri 1 yüksekliğinde yatay bir düzlemle kesersek, kesikler elipsleri (aslında elipsleri tanımlamanın bir yolu) tarif edecektir. Bu kesim elipsleri denklemleri ile verilir veAQA(c)=cTAcABQBQA

QA(c)=1,QB(c)=1
ABB'nin elipsine karşılık gelir (şimdi iç mekanda) A elipsinde bulunur. Eğer bir düzen yoksa, sınırlama olmayacaktır. İnversiyon sırasının elipslerini çizebileceğimizi beğenmezsek, içerme düzeninin Loewner kısmi düzeninin tersi olduğunu gözlemliyoruz. Bunun nedeni eşdeğer olmasıdır . Ama burada tanımlanan elipslerle kalacağım.ABB1A1

Bir elips yarı tonlarla ve uzunluklarıyla açıklanabilir. Burada sadece matrisini tartışacağız , çünkü çizebileceğimiz onlar ... İki ana eksene ve uzunluklarına ihtiyacımız var. Bu, burada posdef matrisinin bir öz-bileşimi ile açıklandığı gibi bulunabilir . Daha sonra ana eksenleri özvektörler ile verilmiş olup, ve bunların uzunluğu özdeğerler hesaplanabilir göre Ayrıca temsil elipsin alanı olduğunu görüyoruz olduğu .2×2a , b λ 1 , λ 2 a = a,bλ1,λ2

a=1/λ1,b=1/λ2.
Aπab=π1/λ11/λ2=πdetA

Matrislerin sipariş edilebileceği son bir örnek vereceğim:

Elips olarak çizilebilen iki matris

Bu durumda iki matris şunlardır:

A=(2/31/51/53/4),B=(11/71/71)


3

@kjetil b halvorsen, kısmi bir düzen olarak pozitif yarı tanımlamanın arkasındaki geometrik sezginin güzel bir tartışmasını sunar. Aynı sezgiyi daha kaba bir şekilde ele alacağım. Varyans matrislerinizle ne tür hesaplamalar yapmak isteyebilirsiniz.

Diyelim ki iki rastgele değişkeniniz var ve . Eğer skaler ise, varyanslarını skaler olarak hesaplayabilir ve skaler gerçek sayıları ve kullanarak bunları açık bir şekilde karşılaştırabiliriz . Dolayısıyla ve ise, rastgele değişken daha küçük bir varyansı olduğunu söylüyoruz .xyV(x)V(y)V(x)=5V(y)=15xy

Öte yandan, ve vektör değerli rastgele değişkenler ise (diyelim ki iki vektör olduklarını), varyanslarını nasıl karşılaştırdığımız çok açık değildir. Varyanslarını şöyle söyleyin: Bu iki rasgele vektörün sapmalarını nasıl karşılaştırırız? Yapabileceğimiz bir şey, sadece ilgili öğelerinin varyanslarını karşılaştırmaktır. Yani, varyansının sadece gerçek sayıları karşılaştırarak varyansından daha küçük olduğunu : vexy

V(x)=[10.50.51]V(y)=[8336]
x1y1V(x1)=1<8=V(y1)V(x2)=1<6=V(y2). Böylece belki de varyansı söyleyebiliriz olan varyansı her elemanın varyans eğer ise karşılık gelen elemanın Varyans . Bu demek gibi olur çapraz elemanların her biri ise olan karşılık gelen çapraz eleman .xyxyV(x)V(y)V(x)V(y)

Bu tanım ilk bakışta mantıklı görünüyor. Ayrıca, düşündüğümüz varyans matrisleri diyagonal olduğu sürece (yani tüm kovaryanslar 0'dır), yarı-kesinlik kullanmakla aynıdır. Yani, varyanslar sonra , pozitif-yarı tanımlıdır (yani ), ve . Kovaryansları tanıtana kadar her şey iyi görünüyor. Bu örneği düşünün:

V(x)=[V(x1)00V(x2)]V(y)=[V(y1)00V(y2)]
V(y)V(x)V(x)V(y)V(x1)V(y1)V(x2)V(y2)
V(x)=[10.10.11]V(y)=[1001]
Şimdi, yalnızca köşegenleri dikkate alan bir karşılaştırma kullanarak diyebiliriz. ve gerçekten de, her bir öğe için . Bizi bu konuda rahatsız etmeye başlayabilecek şey, ve gibi vektörlerin unsurlarının ağırlıklı toplamını hesaplarsak , bile .V(x)V(y)V(xk)V(yk)3x1+2x23y1+2y2V(3x1+2x2)>V(3y1+2y2)V(x)V(y)

Bu garip, değil mi? Zaman ve skalerler, o zaman garanti eder herhangi bir sabit, rastgele olmayan için , .xyV(x)V(y)aV(ax)V(ay)

Herhangi bir nedenle, böyle rastgele değişkenlerin elemanlarının doğrusal kombinasyonlarıyla ilgilenirsek, varyans matrisleri için tanımımızı güçlendirmek isteyebiliriz . Belki söylemek istiyorum ise ve bu doğrudur ancak eğer , sayılar sabit Ne olursa olsun ve biz almak. Biz seçerseniz beri Bildirimi, bu köşegeni salt tanımı daha güçlü bir tanımıdır diyor biz almak ve eğer diyor .V(x)V(y)V(a1x1+a2x2)V(a1y1+a2y2)a1a2a1=1,a2=0V(x1)V(y1)a1=0,a2=1V(x2)V(y2)

Her olası sabit vektör için ve sadece diyen bu ikinci tanım, varyansı karşılaştırmanın olağan yöntemidir. pozitif yarı-kesinlik temelli matrisler: Varyans matrisleri için tanımının tam olarak olduğunu garanti etmek için seçildiğini görmek için son ifadeye ve pozitif yarı-tanımın tanımına bakın , ancak ve ancak herhangi bir seçim için örneğin, yarı pozitiftir -definite.V(x)V(y)V(ax)V(ay)a

V(ay)V(ax)=aV(x)aaV(y)a=a(V(x)V(y))a
V(x)V(y)V(ax)V(ay)a(V(y)V(x))

Yani, sorunuzun yanıtının insanlar varyans matrisi demek ki bir varyans matrisi daha küçüktür ise pozitif yarı tanımlı olduğu çünkü onlar yatan rasgele vektörlerin elemanlarının doğrusal kombinasyonları sapmalar karşılaştırarak ilgilenen edilir. Hangi tanımı seçtiğiniz hesaplamakla ilgilendiğinizi ve bu tanımın bu hesaplamalarda size nasıl yardımcı olduğunu izler.VWWV

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.