Neden rastgele yürüyüşler birbiriyle ilişkili?


27

Ortalama olarak, Pearson korelasyon katsayısının mutlak değerinin , yürüme uzunluğundan bağımsız olarak herhangi bir bağımsız rastgele yürüyüş çiftine yakın bir sabit olduğunu gözlemledim .0.560.42

Birisi bu fenomeni açıklayabilir mi?

Herhangi bir rastgele dizide olduğu gibi, yürüme uzunluğu arttıkça korelasyonların küçülmesini beklerdim.

Deneylerim için, adım ortalama 0 ve adım standart sapma 1 olan rastgele gauss yürüyüşleri kullandım.

GÜNCELLEŞTİRME:

Öyle olduğunu, bu yüzden veri merkezi unuttum 0.56yerine 0.42.

İşte korelasyon hesaplamak için Python betiği:

import numpy as np
from itertools import combinations, accumulate
import random

def compute(length, count, seed, center=True):
    random.seed(seed)
    basis = []
    for _i in range(count):
        walk = np.array(list(accumulate( random.gauss(0, 1) for _j in range(length) )))
        if center:
            walk -= np.mean(walk)
        basis.append(walk / np.sqrt(np.dot(walk, walk)))
    return np.mean([ abs(np.dot(x, y)) for x, y in combinations(basis, 2) ])

print(compute(10000, 1000, 123))

İlk düşüncem, yürüyüş uzadıkça değerleri daha büyük bir değerde elde etmenin mümkün olacağı ve korelasyonun bu konuda yakalandığıdır.
John Paul

Ama bu sizi doğru anlarsam, rastgele dizilerle aynı korelasyona sahip olsalar, rastgele bir sıra ile çalışırlar.
Adam

4
Bu sadece herhangi bir "rastgele dizi" değildir: korelasyonlar son derece yüksektir, çünkü her terim bir öncekinden sadece bir adım uzaklıktadır. Ayrıca, hesapladığınız korelasyon katsayısının söz konusu rastgele değişkenlere ait olmadığını unutmayın: bu, çeşitli kareler ve tüm farklılıkları içeren büyük bir formüle denk gelen, diziler için bir korelasyon katsayısıdır (sadece eşleştirilmiş veri olarak düşünülür). Sıradaki terimler.
whuber

10
Rastgele yürüyüşler arasındaki korelasyondan mı bahsediyorsunuz (seri boyunca bir seri içinde değil) Öyleyse, bağımsız rastgele yürüyüşlerinizin entegre olması ancak eşbütünleşik olmaması nedeniyle, sahte korelasyonların ortaya çıkacağı bilinen bir durumdur.
Chris Haug

8
İlk farkı alırsanız korelasyon bulamazsınız. Durağanlık eksikliği burada anahtardır.
Paul

Yanıtlar:


24

XtYt

  • Corr(X,Y)
  • tCorr(Xt,Yt)
  • Ancak zaman serisi ortalamalarına dayanan örnek istatistikler hiçbir şeye yakınlaşmayacak! Zaman içindeki çoklu gözlemlerin ortalaması alınarak hesapladığınız örnek korelasyon katsayısı anlamsızdır.

Sezgisel olarak, bunu (yanlış) tahmin edebilirsiniz:

  1. {Xt}{Yt}Corr(X,Y)
  2. ρ^XYμX^=1Tτ=1TXτρXYT

Sorun, bu ifadelerin hiçbirinin rastgele yürüyüşler için geçerli olmamasıdır! (Daha iyi davranış gösteren süreçler için geçerlidirler.)

Durağan olmayan işlemler için:

  • {Xt}{Yt}Corr(X2,Y3)
  • Corr(X,Y)

Rastgele bir yürüyüş durumunda sorunlar?

  1. tE[X]ρXY
  2. 1TτXτT
    • Sabit bir dizi için, zaman serileri ortalaması zamanla koşulsuz olan ortalamaya yaklaşacaktır. Ancak durağan olmayan bir dizilim için, zamanında koşulsuz olan hiçbir araç yoktur!

X1X2Y1Y211

ρ^XY(T)t=1t=T[1,1]ωΩ

  • XtYt
  • XtYt
  • XtYt

Bu konuda Google’ı daha fazla şartla kullanabilirsiniz spurious regression random walk.

tωΩΔxt=xtxt1{Δxt}

Büyük resim fikri:

Zaman içindeki çoklu gözlemler Örnek bir uzaydan gelen çoklu çizimlerle aynı DEĞİLDİR!

{Xt}tNΩ

tΩ

WHuber'un cevabına bağlantı:

Ωt

ρ^XY(t)X1XtY1Yt

Zt

Zt=|ρ^XY(t)|

0N(0,1)E[Z10000]Ω

Aşağıda, 10.000 hesaplama örneği için Pearson korelasyon katsayısı simülasyonunu kullandım. Her seferinde:

  • N(0,1)
  • Aralarındaki örnek korelasyon katsayısını hesapladı.

Aşağıda 10000 hesaplanan korelasyon katsayıları üzerindeki ampirik dağılımı gösteren bir histogram bulunmaktadır.

görüntü tanımını buraya girin

ρ^XY(10000)[1,1]XY

t=10,000

Kod:

for i=1:10000 
  X = randn(10000,2); 
  Y = cumsum(X); 
  z(i) = corr(Y(:,1), Y(:,2));
end;
histogram(z,20);
mean(abs(z))

Numune büyüklüğü açıkça sonlu olmadığı için, mevcut olmayan çeşitli miktarlarla ilgili iddialarınız şaşırtıcı değildir. Sembollerin OP tarafından açıklanan duruma nasıl uygulandığını görmek zor.
whuber

Örnek boyutunuz ASLA ASLA sonsuzluğa gider! Bilgisayarla örnek çizdiğiniz sürece, ( yalnızca saf matematikte bu tür varsayımlar yapabilirsiniz ). Ve bu ne anlama geliyor: Çünkü sonsuz sayıda noktaya yakınsamadığınız için? Bunu nereden okudun?
Mayou36

@whuber Umarım bu sürüm biraz daha net. OP’nin, rastgele yürüyüşlerin iki sonlu kesimi arasındaki örnek korelasyon katsayısının neden (zaman serileri ortalamalarına dayanarak), zaman serilerinin çok uzun zaman serileri için bile sıfır olmadığını sorduğunu düşünüyorum. Temel bir sorun, rastgele bir yürüyüş için çeşitli popülasyon anlarının mevcut olmaması ve zaman serisi ortalamalarının hiçbir şeye yakınlaşmamasıdır.
Matthew Gunn

nn

1
tt

15

1/2n

Standart terimlerle ilgili karışıklık potansiyeli vardır. Soruda belirtilen mutlak korelasyon, onu oluşturan istatistiklerle birlikte - farklılıklar ve kovaryanslar - rastgele bir yürüyüşün herhangi bir gerçekleşen çiftine uygulanabilecek formüllerdir . Soru, birçok bağımsız gerçekleşmeye baktığımızda olanlarla ilgilidir. Bunun için rastgele yürüyüş sürecinden beklentiler almamız gerekiyor .


(Düzenle)

(X,Y)(Xt,Yt)Xt+1,Yt+1YXYYX01

15960

şekil

Bu eğimler oldukça geniş olma eğilimindedir. Mükemmel olarak rastgele bu noktaların rastgele saçılma noktalarının daima sıfıra çok yakın eğimleri olacaktır . Burada ortaya çıkan kalıpları tanımlamamız gerekirse, 2B rastgele yürüyüşün çoğunun kademeli olarak bir konumdan diğerine geçtiğini söyleyebiliriz . (Ancak bunlar mutlaka başlangıç ​​ve bitiş noktalarının konumları değildir!) O zaman yaklaşık yarısı, o zaman bu göç çapraz yönde gerçekleşir - ve eğim buna göre yüksektir.

Bu yazının geri kalanı bu durumun bir analizini çiziyor.


(Xi)(W1,W2,,Wn)Wiσ2

x=(x1,,xn)

V(x)=1n(xix¯)2.

Bu değeri hesaplamanın iyi bir yolu, tüm kare farklılıklarının ortalamasının yarısını almaktır:

V(x)=1n(n1)j>i(xjxi)2.

xXn

E(V(X))=1n(n1)j>iE(XjXi)2.

Farklılıklar, iid değişkenlerinin toplamıdır.

XjXi=Wi+1+Wi+2++Wj.

WkWkσ2

E((Wi+1+Wi+2++Wj2))=(ji)σ2.

Bunu kolayca takip eder

E(V(X))=1n(n1)j>i(ji)σ2=n+16σ2.

xy

E(C(X,Y)2)=3n62n53n2+2n480n2(n1)2σ4.

Sonuç olarak, arasındaki kare korelasyon katsayısının beklentisidir.XYn

ρ2(n)=E(C(X,Y)2)E(V(X))2=3403n32n2+3n2n3n.

9/400.47ρ(n)


ρ2(n)1000ρ2(n)n|ρ(n)|

şekil

RŞekil üretmek için kod budur .

f <- function(n){
  m <- (2 - 3* n + 2* n^2 -3 * n^3)/(n - n^3) * 3/40 
}
n.sim <- 1e4
par(mfrow=c(1,4))
for (n in c(3, 10, 30, 100)) {
  u <- matrix(rnorm(n*n.sim), nrow=n)
  v <- matrix(rnorm(n*n.sim), nrow=n)
  x <- apply(u, 2, cumsum)
  y <- apply(v, 2, cumsum)
  sim <- rep(NA_real_, n.sim)
  for (i in 1:n.sim)
    sim[i] <- cor(x[,i], y[,i])^2
  z <- signif(sqrt(n.sim)*(mean(sim) - f(n)) / sd(sim), 3)
  hist(sim,xlab="rho(n)^2", main=paste("n =", n), sub=paste("Z =", z))
  abline(v=mean(sim), lwd=2, col="Red")
  abline(v=f(n), col="Blue", lwd=2, lty=3)
}

E[ρ2]T=100

ΩXt

1
9/40n

9/40XtYt(Xt,Yt)

2
Burada tartışılan konuların asimptotik bir analizi, Phillips (1986), Theorem 1e'de bulunabilir .
Christoph Hanck
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.