Kovaryans matrisi oluşturan değişkenler arasındaki mesafeler nelerdir?


11

Bir kovaryans matrisi var ve hiyerarşik kümeleme kullanarak (örneğin, bir kovaryans matrisi sıralamak için) değişkenleri kümelerine bölümlemek istiyorum .knxnk

Değişkenler arasında tipik bir mesafe işlevi var mı (yani kare kovaryans matrisinin sütunları / satırları arasında)?

Ya da daha fazlası varsa, konuyla ilgili iyi bir referans var mı?


Neden değişkenler üzerinde hiyerarşik kümelemeyi kullanmak istersiniz? Genel olarak, sütunlardaki değişkenler ve satırlardaki gözlemler olan bir veri matrisi düşünürüz . Eğer gizli gruplar için bakmak isterseniz, örneğin hiyerarşik üzerinde kümeleme deneyebilirsiniz satırlar / gözlemler ya, örneğin faktör analizini üzerinde sütun / değişkenler. X
gung - Monica'yı eski

@Piotr, Evet, kovaryans (veya korelasyon veya kosinüs) kolayca ve doğal olarak öklid mesafesine dönüştürülebilir, çünkü skaler bir üründür (= açısal tip benzerlik). İki değişken arasındaki kovaryansın ve değişkenlerinin otomatik olarak bilinmesi , değişkenler arasındaki d'yi bilmeyi gerektirir : . d2=σ12+σ22-2cÖv
ttnphns

Bu formülün negatif bir kovaryansın, pozitif kovaryanstan daha büyük bir mesafe olduğu anlamına gelir (ve bu aslında geometrik açıdan durumdur). Kovaryans işaretinin rol oynamasını istemiyorsanız, negatif işareti kaldırın.
ttnphns

@gung Bu simetrik bir matristir, yani satırlar ~ sütunlar. Benim için, bunu değişken setlerine ayırmak, bunları faktör analizi ile 'döndürmemek' çok önemlidir (aslında, standart bir cov. Matrisi ile değil, karmaşık bir olanla (kuantum mekaniğinde yoğunluk matrisi) çalışıyorum).
Piotr Migdal

@ttnphns Teşekkürler. Beni rahatsız eden şey, ilişkisiz değişkenleri ayırmak istediğim - negatif korelasyon benim için (neredeyse) benim için olumlu olan kadar iyi.
Piotr Migdal

Yanıtlar:


13

Kovaryans (veya korelasyon veya kosinüs), kosinüs kanunu vasıtasıyla kolayca ve doğal olarak öklid mesafesine dönüştürülebilir , çünkü öklid uzayında skaler bir üründür (= açısal bazlı benzerlik). İki değişken i ve j arasındaki kovaryansı ve bunların varyanslarını bilmek otomatik olarak değişkenler arasındaki d'yi bilmeyi gerektirir : . (Bu d 2 i jdbenj2=σben2+σj2-2cÖvbenjdbenj2her zamanki kareli Öklid mesafesi ile doğru orantılıdır : varyanslar ve kovaryans yerine karelerin toplamlarını ve çapraz çarpı toplamlarını kullanırsanız ikincisini elde edersiniz. Her iki değişken de elbette başlangıçta ortalanmalıdır: "kovaryanslardan" bahsetmek, kaldırılan araçlarla veri düşünmek için takma addır.)

Not, bu formül, negatif bir kovaryansın pozitif kovaryanstan daha büyük bir mesafe olduğu anlamına gelir (ve bu aslında geometrik bakış açısından, yani değişkenler konu uzayında vektör olarak görüldüğünde ) söz konusudur . Kovaryans işaretinin rol oynamasını istemiyorsanız, negatif işareti kaldırın. Negatif işareti göz ardı etmek "elle yamalama" işlemi değildir ve gerektiğinde garanti edilir: eğer cov matrisi pozitif kesin ise, abs (cov) matrisi de pozitif kesin olacaktır; ve dolayısıyla yukarıdaki formülle elde edilen mesafeler gerçek öklid mesafeleri olacaktır (öklid mesafesi belirli bir metrik mesafedir).

Öklid mesafeleri hiyerarşik kümelemeye göre evrenseldir : bu kümelemenin herhangi bir yöntemi öklid ya da kare öklid ile geçerlidir d . Ancak bazı yöntemler, örneğin ortalama bağlantı veya tam bağlantı, herhangi bir farklılık veya benzerlikle kullanılabilir (sadece metrik mesafelerle değil). Böylece bu yöntemleri doğrudan cov veya abs (cov) matrisi veya - örneğin, max (abs (cov)) - abs (cov) mesafe matrisi ile kullanabilirsiniz. Tabii ki, kümelenme sonuçları potansiyel olarak kullanılan (dis) benzerliğin kesin doğasına bağlıdır.


dbenj2dbenj2

@ HelloGoodbye, evet Eşit yollarla iki değişken (vektör) ima ediyorum - aslında, ilk aşamada araç kaldırıldı.
ttnphns

3

Kümelemeyi yapmak için neden korelasyon matrisini kullanmıyorsunuz? Rastgele değişkenlerinizin ortalandığı varsayıldığında, değişkenler arasındaki korelasyonu hesaplayarak kosinüs benzerlik mesafesini hesaplamış olursunuz . Bu mesafe bağlantınızda da belirtilir. Bu mesafe hiyerarşik kümeleme için kullanılabilir. 1 - | kosinüs benzerliği | ne kadar küçükse, değişkenleriniz o kadar benzerdir.


d(ben,j)=1-birbenj2/(birbenbenbirjj)

3
Ah, yanlış anlama için özür dilerim. Bildiğim en iyi kaynak bu . Hiyerarşik kümeleme ile çeşitli metriklerin (korelasyon kullanan) kalitesini incelerler. Hiyerarşik kümeleme için normalde birçok metrik dener ve belirli hedefim ve verilerim için hangisinin daha iyi olduğunu görürüm.
Jorge Banuelos

bağlantı artık çalışmıyor gibi görünüyor?
Matifou
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.