Mesafe korelasyon hesaplamalarını anlama


15

Anladığım kadarıyla, mesafe korelasyonu iki sayısal değişken arasında bir ilişki olup olmadığını kontrol etmenin sağlam ve evrensel bir yoludur. Örneğin, bir çift sayı grubumuz varsa:

(x1, y1)
(x2, y2)
...
(xn, yn)

iki değişken ( xve y) arasında herhangi bir (zorunlu olarak doğrusal olmayan) ilişki olup olmadığını kontrol etmek için mesafe korelasyonunu kullanabiliriz . Ayrıca xve yfarklı boyutlarda vektörler olabilir.

Mesafe korelasyonunu hesaplamak nispeten kolaydır. İlk olarak mesafe matrisini hesaplamak için kullanıyoruz . Daha sonra belirli bir mesafe kalacak matrisi hesaplamak y i . İki mesafe matrisi aynı boyutlara sahip olacaktır, çünkü x i ve y i sayısı aynıdır (çünkü çiftler halinde gelirler).xiyixiyi

Şimdi eşleştirilebilecek birçok mesafemiz var. Örneğin (2,3), birinci mesafe matrisinden eleman (2,3)ikinci mesafe matrisinden eleman ile eşleştirilir . Yani, bir dizi çift çiftimiz var ve bunu korelasyonu (mesafeler arasındaki korelasyon) hesaplamak için kullanabiliriz.

İki tip uzaklık ilişkilendirilirse, bu yakın X'lerin genellikle yakın Ys anlamına geldiği anlamına gelir. Örneğin, eğer yakın olan x 13 bu demektir daha y 7 muhtemelen yakın olmak y 13 . Dolayısıyla, X ve Y'lerin bağımlı olduğu sonucuna varabiliriz.x7x13y7y13

Kulağa makul geliyor, ancak anlamadığım iki yön var .

İlk olarak , mesafe korelasyonunu hesaplamak için iki mesafe matrisini doğrudan kullanmayız. Onlara çift merkezleme prosedürü uygularız (böylece herhangi bir satırdaki (veya sütundaki) tüm öğelerin toplamı sıfıra eşit olur). Neden yapmamız gerektiğini anlamıyorum. Bu adımın arkasındaki mantık (veya sezgi) nedir?

İkincisi , orijinal mesafe matrislerinde diyagonal üzerinde sıfırlar var. Bu nedenle, mesafeler arasındaki korelasyonları hesaplarsak, sadece birinci matristeki sıfırların ikinci matristeki karşılık gelen sıfırlarla eşleştirilmesi nedeniyle istatistiksel olarak anlamlı bir korelasyonumuz olacaktır. Bu sorun nasıl çözüldü?

Yanıtlar:


16

Mesafe kovaryans / korelasyon (= Brown kovaryans / korelasyon) aşağıdaki adımlarda hesaplanır:

  1. NDeğişken vakalar arasında öklid mesafelerinin matrisini ve benzer şekilde Y değişkeniyle başka bir matrisi hesaplayın . İki niceliksel özellik olan X veya Y'den herhangi biri, sadece tek değişkenli değil, çok değişkenli olabilir.XYXY
  2. Her matrisin çift merkezlemesini yapın. Bkz nasıl çift merkezleme genellikle yapılır. Ancak, bizim durumumuzda, bu do yaparken değil kare mesafeler başlangıçta ve bölün yok sonunda. Satır, sütun ortalamaları ve elemanların genel ortalaması sıfır olur.2
  3. Sonuçta ortaya çıkan iki matrisi eleman olarak çarpın ve toplamı hesaplayın; veya eşdeğer olarak, matrisleri iki kolon vektörüne ayırın ve toplanan çapraz ürünlerini hesaplayın.
  4. Ortalama, eleman sayısına bölünerek N^2,.
  5. Karekök alın. Sonuç, X ve Y arasındaki mesafe kovaryansıdır .XY
  6. Mesafe varyansları, , Y'nin kendi benlikleri ile olan mesafe kovaryanslarıdır, bunları aynı şekilde hesaplarsınız, 3-4-5.XY
  7. Uzaklık korelasyonu , Pearson korelasyonunun olağan kovaryanstan ve varyans çiftinden nasıl elde edildiği gibi üç sayıdan elde edilir: kovaryansın, iki varyans ürününün sql kökü ile bölünmesi.

Mesafe kovaryansı (ve korelasyon) mesafelerin kendileri arasındaki kovaryans (veya korelasyon) değildir . "Çift merkezli" matrislerin oluştuğu özel skaler ürünler (nokta ürünler ) arasındaki kovaryanstır (korelasyon) .

Öklid uzayında, skaler bir ürün, tekabül eden mesafeye tek odaklı bağlanan benzerliktir . İki noktanız (vektörünüz) varsa, yakınlıklarını bilgi kaybetmeden mesafeleri yerine skaler ürün olarak ifade edebilirsiniz.

Bununla birlikte, skaler bir ürünü hesaplamak için uzayın başlangıç ​​noktasına başvurmanız gerekir (vektörler başlangıç ​​noktasından gelir). Genel olarak, kişi kökenini istediği yere yerleştirebilir, ancak çoğu zaman ve uygun olanı, nokta bulutunun geometrik ortalamasına, ortalamaya yerleştirmektir. Ortalama, bulutun kapsadığı alanla aynı alana ait olduğu için boyutluluk şişmez.

Şimdi, mesafe matrisinin (bir bulutun noktaları arasında) olağan çift ​​merkezlemesi , orijini bu geometrik ortaya yerleştirirken mesafeleri skaler ürünlere dönüştürme işlemidir. Bunu yaparken, mesafelerin "ağı", eşdeğer olarak belirli uzunluklarda ve çift açılarda vektörlerin "patlaması" ile başlar:

resim açıklamasını buraya girin

XX

n points x p dimensionsXp=1Dn x nnCXS=double-centered D2CC12nD2=trace(S)=trace(CC)S

Mesafe korelasyonuna dön. Mesafe kovaryansını hesaplarken ne yapıyoruz? Her iki uzaklık ağını da karşılık gelen vektör demetlerine dönüştürdük. Ve sonra, iki demetin karşılık gelen değerleri arasındaki eşleşmeyi (ve daha sonra korelasyonu) hesaplıyoruz: bir konfigürasyonun her skaler ürün değeri (eski mesafe değeri), diğer konfigürasyona karşılık gelen biri ile çarpılmaktadır. Bu, "değişkenler" deki iki matrisin vektörleştirilmesinden sonra, iki değişken arasındaki olağan kovaryansı hesaplayan (3. maddede söylendiği gibi) olarak görülebilir.

Böylece, iki benzerlik setini (dönüştürülmüş mesafeler olan skaler ürünler) eşleştiriyoruz. Her türlü kovaryans, anların çapraz ürünüdür: bu anları hesaplamanız gerekir, ilk önce ortalamadan sapmalar - ve çift merkezleme bu hesaplamadır. Sorunuzun cevabı budur: bir kovaryansın anlara dayanması gerekir, ancak mesafeler an değildir.

(5. noktadan) sonra kare kökün ek alınması mantıklı görünmektedir, çünkü bizim durumumuzda anın kendisi zaten bir çeşit kovaryanstı (bir skaler ürün ve bir kovaryans yapısal olarak rakiplerdir ) ve böylece iki kez çoğaltılmış kovaryanslar ortaya çıktı. Bu nedenle, orijinal verilerin değerlerinin seviyesine inmek (ve korelasyon değerini hesaplayabilmek) için daha sonra kök almak gerekir.

(0,2)12


3. adımda "toplanan çapraz ürün" ile normal bir skaler ürün mü demek istediniz?
kram1032

1
@ kram1032, evet scp ve sayısal çarpım eş olan stats.stackexchange.com/a/22520/3277
ttnphns

8

Her iki sorunuzun da derinden bağlantılı olduğunu düşünüyorum. Mesafe matrisindeki orijinal köşegenler 0 iken, kovaryans için kullanılan (korelasyonun payını belirleyen) mesafelerin iki kat merkezli değerleridir - ki bu, herhangi bir varyasyona sahip bir vektör için köşegenlerin olumsuz.

Şimdi basit bir bağımsız durumdan geçelim ve iki değişken bağımsız olduğunda korelasyonun neden 0 olduğuna dair herhangi bir sezgi verip vermediğine bakalım.

(X,Y)=[(0,0),(0,1),(1,0),(1,1)]

XY

a=[0011001111001100]

b=[0101101001011010]

A

A=[.5.5.5.5.5.5.5.5.5.5.5.5.5.5.5.5]

B=[.5.5.5.5.5.5.5.5.5.5.5.5.5.5.5.5]

.5.5=.25.5.5=.25.5.5=.250

0

0ab0.25

(Ttnphns'ın belirttiği gibi, güç de önemli olduğu için tek başına bu yeterli değildir. Aynı çift merkezlemeyi yapabiliriz, ancak bunları kareleme halinde eklersek, if ve yalnızca mülkü kaybederiz.)


1
Bu cevaba matrisleri düzenlesem sorun olur mu?
shadowtalker

@ ssdecontrol teklif için teşekkürler! Ben geçtim ve kendim yaptım, ancak başka biçimlendirme değişiklikleri yapmaktan çekinmeyin.
Matthew Graves

1
Oldukça anlamıyorum sen bu durumda "tek" demek (aksi takdirde Mattew demiştin ya?) Benim için önemli / gerçekten gizemli nedir (benim cevap sonunda deyimiyle) 'dir neden ( onsuz çift merkezleme gerçekleştirdiğinizde teorik olarak) kare alma mesafeleri ilk biz onun benzersiz ve kullanışlı özelliklere sahip olduğu dCov kolaylaştırır.
ttnphns

1
@ttnphns: Tek merkezleme ile, her mesafeden büyük ortalama çıkarmak demekti. Her durumda, mesafe kovaryansının gizemli olduğuna katılıyorum.
amip: Reinstate Monica

1
@amoeba, yazarların bir çeşit sezgisel açıklama ve birden çok değişken çifti için etkili bir uygulama ile bir takip yazmasını isterdim. On yıl içinde kapanıyor çünkü orijinal kâğıtları ve mesafe kovaryansı hala mezun öğrenciler için sadece kuixotik bir saptırma. pratikte kullandığını gördüğüm tek şey, MC zincirlerini teşhis etmek için
Stan'de
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.