Anladığım kadarıyla, mesafe korelasyonu iki sayısal değişken arasında bir ilişki olup olmadığını kontrol etmenin sağlam ve evrensel bir yoludur. Örneğin, bir çift sayı grubumuz varsa:
(x1, y1)
(x2, y2)
...
(xn, yn)
iki değişken ( x
ve y
) arasında herhangi bir (zorunlu olarak doğrusal olmayan) ilişki olup olmadığını kontrol etmek için mesafe korelasyonunu kullanabiliriz . Ayrıca x
ve y
farklı boyutlarda vektörler olabilir.
Mesafe korelasyonunu hesaplamak nispeten kolaydır. İlk olarak mesafe matrisini hesaplamak için kullanıyoruz . Daha sonra belirli bir mesafe kalacak matrisi hesaplamak y i . İki mesafe matrisi aynı boyutlara sahip olacaktır, çünkü x i ve y i sayısı aynıdır (çünkü çiftler halinde gelirler).
Şimdi eşleştirilebilecek birçok mesafemiz var. Örneğin (2,3)
, birinci mesafe matrisinden eleman (2,3)
ikinci mesafe matrisinden eleman ile eşleştirilir . Yani, bir dizi çift çiftimiz var ve bunu korelasyonu (mesafeler arasındaki korelasyon) hesaplamak için kullanabiliriz.
İki tip uzaklık ilişkilendirilirse, bu yakın X'lerin genellikle yakın Ys anlamına geldiği anlamına gelir. Örneğin, eğer yakın olan x 13 bu demektir daha y 7 muhtemelen yakın olmak y 13 . Dolayısıyla, X ve Y'lerin bağımlı olduğu sonucuna varabiliriz.
Kulağa makul geliyor, ancak anlamadığım iki yön var .
İlk olarak , mesafe korelasyonunu hesaplamak için iki mesafe matrisini doğrudan kullanmayız. Onlara çift merkezleme prosedürü uygularız (böylece herhangi bir satırdaki (veya sütundaki) tüm öğelerin toplamı sıfıra eşit olur). Neden yapmamız gerektiğini anlamıyorum. Bu adımın arkasındaki mantık (veya sezgi) nedir?
İkincisi , orijinal mesafe matrislerinde diyagonal üzerinde sıfırlar var. Bu nedenle, mesafeler arasındaki korelasyonları hesaplarsak, sadece birinci matristeki sıfırların ikinci matristeki karşılık gelen sıfırlarla eşleştirilmesi nedeniyle istatistiksel olarak anlamlı bir korelasyonumuz olacaktır. Bu sorun nasıl çözüldü?