Kovaryans matrisinden bir “varyans” ölçüsü mü?


17

Veriler 1d ise, varyans veri noktalarının birbirinden ne kadar farklı olduğunu gösterir. Veriler çok boyutluysa, bir kovaryans matrisi alırız.

Çok boyutlu veriler için veri noktalarının genel olarak birbirinden ne kadar farklı olduğunu gösteren bir ölçü var mı?

Zaten birçok çözüm olabileceğini hissediyorum, ancak bunları aramak için kullanılacak doğru terimden emin değilim.

Belki kovaryans matrisinin özdeğerlerini toplamak gibi bir şey yapabilirim, bu mantıklı geliyor mu?


2
Kovaryans matrisinin belirleyicisi. Yakında daha etli bir cevap göndereceğim.
user603

5
İz çok sık kullanılır. Örneğin PCA'da, her bileşen tarafından açıklanan varyans fraksiyonu, kovaryans matrisinin izi olarak tanımlanan "toplam varyansın" bir kısmıdır. @ user603 Cevabınızı dört gözle bekliyoruz.
amip: Reinstate Monica

2
adding up the eigenvalues of the covariance matrixyukarıda belirtilen iz amipine eşittir.
ttnphns

Tedbir ne için kullanılacak / kullanılacaktı?
HelloGoodbye

@HelloGoodbye merhaba aslında bazı [gürültülü] etiketli veriler var ve önceden aynı kategorideki [gerçek] veri noktalarının çok farklı olmaması gerektiğini varsayıyorum. Her kategorideki verilerin ne kadar gürültülü olduğu hakkında bir fikir edinebilmem için her kategorideki veri noktalarının farklılık derecesini ölçmenin bir yolunu arıyorum.
dontloo

Yanıtlar:


16

(Aşağıdaki cevap sadece [0] 'da kanıtlanmış teoremi ortaya koyar ve ifade eder. Bu makaledeki güzellik, argümanların çoğunun temel lineer cebir açısından yapılmış olmasıdır. Bu soruyu cevaplamak için ana sonuçları belirtmek yeterli olacaktır; elbette, orijinal kaynağı kontrol edin).

Verilerin çok değişkenli deseni ile tarif edilebilir herhangi bir durumda değişken eliptik dağılımı, istatistiksel çıkarım, tanımı gereği, bir montaj (ve karakterize) sorununa azaltacaktır k değişken yer vektörü (ki θ ) ve k ile verilere simetrik yarı pozitif belirli matris (say ). Aşağıda açıkladığım nedenlerle (ancak zaten tesis olarak varsaydığınız), bir şekil bileşenine ( aynı boyutta bir SPSD matrisi) daha anlamlıkkθkΣ Σ Σ σ SkΣΣΣ) çok değişkenli dağılımınızın yoğunluk konturlarının şeklini ve bu konturların ölçeğini ifade eden bir skaler .σS

Tek değişkenli verilerde ( ), , verilerinizin kovaryans matrisi bir ve aşağıdaki tartışmadan itibaren, şekil bileşeni , böylece eşittir ölçek bileşeni her zaman ve hiçbir belirsizlik mümkün değildir.Σ Σ Σ Σ = σ Sk=1ΣΣΣΣ=σS

Çok değişkenli verilerde, birçok ölçekleme fonksiyonu seçimi mümkündür. Özellikle biri ( ) arzu edilen bir anahtar özelliğe sahip olarak göze . Bu, eliptik aileler bağlamında tercih edilen ölçeklendirme faktörü seçimini yapmalıdır.σ S = | ΣσSσS=|ΣΣ|1/k


MV istatistiklerindeki birçok problem, fonksiyonunda (al) simetrik yarı pozitif kesin olarak tanımlanan bir dağılım matrisinin tahmin edilmesini ve tatmin edilmesini içerir:R k × kΣRk×k

A b

(0)Σ(AX+b)=AΣ(X)A
(sigara tekil matrisler için ve vektörler ). Örneğin, klasik kovaryans tahmini (0) 'ı tatmin eder, ancak hiçbir şekilde tek değildir. Ab

Tüm yoğunluk konturlarının aynı şekil matrisi tarafından tanımlanan elipsler olduğu eliptik dağıtılmış verilerin varlığında, bir skaler ile kadar, formun normalleştirilmiş sürümlerini dikkate almak doğaldır :Σ

VS=Σ/S(Σ)

burada , tatmin edici 1-onurlu bir işlevdir:S

(1)S(λΣ)=λS(Σ)

tüm . Sonra , dağılım matrisinin şekil bileşeni (kısa şekil matrisinde) ve dağılım matrisinin ölçek bileşeni olarak adlandırılır. Kayıp fonksiyonunun sadece şekil bileşeni bağlı olduğu çok değişkenli tahmin problemlerine örnek olarak diğerleri arasında küresellik, PCA ve CCA testleri dahildir.V S σ S = S 1 / 2 ( Σ ) Σ V Sλ>0VSσS=S1/2(Σ)ΣVS

Tabii ki, birçok olası ölçekleme işlevi vardır, bu nedenle bu, normalleştirme işlevi birkaç seçeneğinin (varsa) bir anlamda optimal olduğu sorusunu hala açık bırakır . Örneğin:S

  • S=tr(Σ)/k (örneğin OP'nin sorusunun altındaki yorumunda @amoeba tarafından önerilen metin. Ayrıca bkz. [1], [2], [3])
  • S=|Σ|1/k ([4], [5], [6], [7], [8])
  • Σ11 (kovaryans matrisinin ilk girişi)
  • Σλ1(Σ) ilk öz )Σ

Bununla birlikte, , yerel olarak asimptotik olarak normal ailelerde karşılık gelen ölçek ve şekil tahminleri için Fisher Information matrisinin blok diyagonal olduğu tek ölçekleme işlevidir (ölçek ve kestirim probleminin şekil bileşenleri asimptotik olarak diktir) [0]. Bu, diğer şeylerin yanı sıra , belirtiminde belirtim herhangi bir verimlilik kaybına neden olmadığı tek seçimi olduğu anlamına gelir. .S=|Σ|1/kS=|Σ|1/kSσSVS

tatmin eden birçok olası seçenek için nispeten güçlü bir optimallik karakterizasyonu bilmiyorum (1).S

  • [0] Paindaveine, D., Şeklin kanonik bir tanımı, İstatistik ve Olasılık Mektupları, Cilt 78, Sayı 14, 1 Ekim 2008, Sayfa 2240-2247. Kontrolsüz bağlantı
  • [1] Dumbgen, L. (1998). Tyler'ın yüksek boyutlu saçılımının M-işlevselliği üzerine Ann. Öğr. Devletçi. Matematik. 50, 471-491.
  • [2] Ollila, E., TP Hettmansperger ve H. Oja (2004). Afin eşdeğer çok değişkenli işaret yöntemleri. Baskı Öncesi, Jyvaskyla Üniversitesi.
  • [3] Tyler, DE (1983). Saçılma matrislerinin sağlamlık ve verimlilik özellikleri, Biometrika 70, 411-420.
  • [4] Dumbgen, L. ve DE Tyler (2005). Bazı çok değişkenli M-Fonksiyonellerinin arıza özellikleri, Scand. Statist. 32, 247-264.
  • [5] Hallin, M. ve D. Paindaveine (2008). Saçılım homojenliği için optimum sıra tabanlı testler, Ann. Statist., Görünmek.
  • [6] Salibian-Barrera, M., S. Van Aelst ve G. Willems (200 6). Hızlı ve sağlam bootstrap ile çok değişkenli MM tahmincilerine dayanan temel bileşenler analizi, J. Amer. Devletçi. Doç. 101, 1198–1211.
  • [7] Taskinen, S., C. Croux, A. Kankainen, E. Ollila ve H. O ja (2006). Dağılım ve şekil matrislerine dayanan kanonik korelasyon ve vektör tahminlerinin etki fonksiyonları ve verimlilikleri, J. Multivariate Anal. 97, 359-384'te açıklanmaktadır.
  • [8] Tatsuoka, KS ve DE Tyler (2000). S-Fonksiyonelleri ve M-fonksiyonellerinin eliptik olmayan dağılımlar üzerindeki tekliği üzerine, Ann. Devletçi. 28, 1219–1243'te açıklanmaktadır.

1
Ayrıca, , ölçek değişkeni olmadığı için ölçek bileşeni için garip bir seçimdir ...Σ11
amip, Reinstate Monica

Kasıtlı cevap için teşekkürler! Yine de tam olarak anlamak biraz zaman alacak :)
dontloo

@amoeba: uygulandı . Ben damla mümkün herhangi bir karışıklık olmaz çünkü cevabın geri kalanında. Biraz beceriksiz olduğunu kabul ediyorum, şimdi . İkinci yorumuna katılıyorum. Aynı şekilde yeniden ölçeklendirmeye değişmez. Bu anlamda üzerine yerleştirilen homojenlik kısıtlaması çok düşük bir çubuktur. ΣXXXXΣ(XX)λ1(Σ)S
user603

Bekle; neden ölçek bileşeninin yeniden ölçeklenmeye değişmez olmasını isteyebilir veya bekleyebilirsiniz ?
amip, Reinstate Monica'yı

Üzgünüz, ölçekleme işlevi olarak , sonuçta elde edilen şekil matrisi yeniden ölçeklendirmeye eşdeğer değildir. λ1(Σ)
user603

11

Skaler değişkenin varyansı, değişkenin ortalamasından kare sapması olarak tanımlanır:

Var(X)=E[(XE[X])2]

Bir genelleme vektör değerli rastgele değişkenler için bir sayısal değere sahip varyansa olarak sapma yorumlayarak elde edilebilir Öklid mesafe :

Vars(X)=E[XE[X]22]

Bu ifade şu şekilde yeniden yazılabilir:

Vars(X)=E[(XE[X])(XE[X])]=E[i=1n(XiE[Xi])2]=i=1nE[(XiE[Xi])2]=i=1nVar(Xi)=i=1nCii

buradaki , kovaryans matrisidir. Son olarak, bu basitleştirilebilirC

Vars(X)=tr(C)

bu kovaryans matrisinin izidir .


4

Her ne kadar iz kovaryans matrisi, bir tr (C) , size toplam varyansın bir ölçü verir, bu hesaba değişkenler arasındaki korelasyonu almaz.

Değişkenleriniz birbirinden bağımsız olduğunda büyük olan ve değişkenler yüksek derecede korelasyonlu olduğunda çok küçük olan bir toplam varyans ölçüsüne ihtiyacınız varsa , kovaryans matrisinin determinantını kullanabilirsiniz | | C | .

Daha iyi bir açıklama için lütfen bu makaleye bakın .


4

Sadece bir sayıya ihtiyacınız varsa, bir kovaryans matrisinin en büyük öz değeri öneririm. Bu aynı zamanda PCA'daki ilk ana bileşenin açıklanmış bir varyansıdır. Vektörünüzün boyutsallığını bire düşürürseniz, toplam varyansın ne kadar açıklanabileceğini anlatır. Matematik SE hakkındaki bu cevaba bakınız .

Buradaki fikir, tüm değişkenleri doğrusal olarak bir seri halinde birleştirerek vektörünüzü tek bir boyuta daraltmanızdır. 1d sorunu ile sonuçlanırsınız.

Açıklanan varyans, toplam varyansa% cinsinden rapor edilebilir. Bu durumda, seri arasında çok fazla doğrusal korelasyon olup olmadığını hemen göreceksiniz. Bazı uygulamalarda bu sayı% 80 ve daha yüksek olabilir, örneğin finansta faiz oranı eğrisi modellemesi. Bu, tüm değişkenlerin 80 varyansını açıklayan doğrusal bir değişken kombinasyonu oluşturabileceğiniz anlamına gelir.


3

Bilgi teorisindeki entropi kavramı, H ( X ) = - p ( x ) log p ( x ) d x tarafından verilen bilgi içeriğinin öngörülemezliğinin bir ölçüsü olarak amaca uygun görünmektedir .

H(X)=p(x)logp(x)dx.

Wikipedia'ya göre verilerden türetilen ortalama μ ve kovaryans Σ ile için çok değişkenli bir Gauss dağılımı varsayarsak , diferansiyel entropi H ( X ) = 1 olur.p(x)μΣ buradanboyut sayısıdır. Yanadeğişkenli Gauss verilen kovaryans ayırıcı entropi maksimize dağılımı, bu formül, üst belirli bir varyans ile bilinmeyen dağıtım için bağlanmış bir entropi verir.

H(X)=12log((2πe)ndet(Σ))
n

Ve @ user603'ün önerdiği gibi, kovaryans matrisinin determinantına bağlıdır.


Bu cevap soru ile aynı ruhta görünmüyor. Kovaryanslar ve varyanslar, herhangi bir dağılımın özellikleridir ( bazı durumlarda sonsuz veya tanımsız olsa da), ancak bu cevap çok özel bir Normal dağılımın son derece özel bir durumuna odaklanır. Dolayısıyla, soruda örtük olarak öngörülen durumların çoğu için geçerli değildir. Belki de cevabınızın, verilerin mutlaka Normal olmadığı genel durumda bazı yararlı rehberlik sağladığı düşüncesinden bahsedebilir misiniz?
whuber

@whuber öneri için teşekkürler belki Gaussian "bir varyans verilen entropiyi en üst düzeye çıkartan dağıtım" olarak yeniden yazmalıyım? sonuç bir üst sınır haline gelecektir. ne düşünüyorsun?
dontloo

Kulağa faydalı ve daha genel bir yere gidiyor gibi geliyor.
whuber

1
Ben bir kedi derisi için birçok yol vardır sanırım;). Aslında cevabınız ve benimkiler arasındaki bağın çok güçlü olduğunu düşünüyorum . Küçük bir tartışmam var; Bence determinantın çözmeye çalıştığınız problem için bazı optimallik özellikleri var (ve sadece aşinalık temelinde seçilmesi gerekmiyor) ve bu optimallik özelliklerinin kovaryans matrislerinin ötesinde olduğunu düşünüyorum seçti ve orada çok sayıda var) ve Gauss dağılımının ötesine (tüm eliptik aileye) uzanıyor.
user603
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.