Sahte korelasyonun beklenen değeri


12

Normal dağılımından bağımsız olarak her biri boyutunda örnek çiziyoruz .Nn(μ,σ2)

Daha sonra numunelerinden birbirimizle en yüksek (mutlak) Pearson korelasyonuna sahip 2 numuneyi seçiyoruz.N

Bu korelasyonun beklenen değeri nedir?

Teşekkürler [PS Bu ev ödevi değil]


2
(+1) Oldukça zor bir ev ödevi sorusu yapabilir :-). Genel bir cevaba mı ihtiyacınız var yoksa (belki de) dikkatinizi belirli veya değerlerine odaklayabilir misiniz ? Örneğin, , çok daha büyük olduğunda iyi yaklaşımlar geliştirmek mümkün olabilir ; diğer durumlarda farklı yaklaşımlara ihtiyaç duyulacaktır. n n NNnnN
whuber

1
Genel bir cevap bekliyordum, ama bir varsayımının iyi olacağı bir tane! ve spesifik değerleri için , o kadar ilginç olmazdı, çünkü simülasyonla (şu anda yaptığım şey) bu gibi özel durumlara bakabilirim, ancak yine de ilgi çekici olabilir. , N , Nn>>NNn
P Sellaz

1
Yanılmama rağmen, herhangi bir gerçek yardımcı programın genel bir çözümünün muhtemelen olası olmadığını düşünüyorum. Geometri ve doğrusal cebir arayüzündeki bazı açık problemlerle oldukça yakından ilgilidir. Uygulamalarda, bu miktarlar hakkında bilgi ihtiyacı, örneğin, sıkıştırılmış algılamada ortaya çıkar.
kardinal

1
FWIW, bu sadece çalışan edilmiştir simülasyon sonucudur: Normal (0,1) kullanılarak, ben ortalama korelasyon olduğu tespit (1000 simülasyonlar), ve örnek sayısı yaklaşık ilişki şöyledir için ve doğrusal bir regresyon modeli kullanılmıştır. Model uyumu ve olağan teşhis oldukça iyiydi. Ayrıca, ortalama korelasyonun yaklaşık olarak normal olarak dağıldığını (hafif sağa eğik olsa da) buldum. N ρ = 0.025 + 0.113 ln ( N ) - 0.008 ln ( N ) 2 n = 100 4 N nρN
ρ=0.025+0.113ln(N)0.008ln(N)2
n=1004Nn
P Sellaz

Yanıtlar:


9

Bu sorunu ele alan şu makaleyi buldum: Jiang, Tiefeng (2004). Örnek Korelasyon Matrislerinin En Büyük Girişlerinin Asimptotik Dağılımları. Uygulamalı Olasılık Yıllıkları, 14 (2), 865-880

Jiang, istatistiklerinin asimptotik dağılımını göstermektedir. , Burada arasındaki korelasyon dikkate değerdir th ve uzunlukta rasgele vektörler inci ile ( ) 'dirLn=max1i<jN|ρij|ρijijnij

limnPr[nLn24logn+log(log(n))y]=exp(1a28πexp(y/2)),
burada kağıt var olduğu kabul edilir ve bir fonksiyonudur .a=limnn/NNn

Görünüşe göre bu sonuç, yeterli sayıda sonlu an içeren dağıtım dağılımları için geçerlidir ( Düzenle: Aşağıdaki @ cardinal'in yorumuna bakınız). Jiang, bunun Tip I aşırı değer dağılımı olduğunu belirtiyor. Yer ve ölçek

σ=2,μ=2log(1a28π).

Tip-I EV dağılımının beklenen değeri , burada Euler sabitini gösterir. Bununla birlikte, yorumlarda belirtildiği gibi, dağıtımdaki yakınsama, kendi başına, araçların sınırlayıcı dağılımın yakınsamasını garanti etmez.μ+σγγ

Eğer bu durumda bu tür bir sonuçları olabilir, daha sonra asimptotik beklenen değerolacaktırnLn24logn+log(log(n))

limnE[nLn24logn+log(log(n))]=2log(a28π)+2γ.

Bunun en büyük kare korelasyonun asimptotik beklenen değerini verirken, sorunun en büyük mutlak korelasyonun beklenen değerini istediğini unutmayın. Yani% 100 orada değil ama yakın.

Düşünmeme neden olan birkaç kısa simülasyon yaptım 1) simülasyonumla ilgili bir sorun var (muhtemelen), 2) transkripsiyonum / cebirimle ilgili bir sorun var (muhtemelen) veya 3) yaklaşım, ve değerlerini kullandım. Belki de OP bu yaklaşımı kullanarak bazı simülasyon sonuçlarıyla tartışabilir?nN


2
Ve bir yana: Bu soruyu gerçekten beğendim - Bu soruyu daha önce merak ettim. Type-I dağıtımına olan bağlantı beni şaşırttı - bunu oldukça havalı buldum. Keşke sadece ona kadar matematik anlamak ...
jmtroos

1
(+1) İyi bul !! Bu pozitif karekökünün en büyük mutlak korelasyonun beklenen değerine eşdeğer olduğunu ? Beklenti için ifadenizde, yalnızca ile ilgili tüm parçaları elde : ? Her neyse, bunu simülasyonlarımla karşılaştırdım ve oldukça yakın görünüyor! R kodum gerçekten özensiz, bu yüzden bugün veya yarın daha sonra toparlamaya ve yayınlamaya Lnn
E[Ln2]=1n{2log(N2n28π)+2γ+4lognlog(log(n))}
çalışacağım

BTW, makaleye doğrudan buradan ulaşabilirsiniz projecteuclid.org/DPubS/Repository/1.0/…
P Sellaz

3
(+1) Bu çok güzel bir kağıt ve ben sadece gözden kaçırdım, ama burada biraz dikkatli olmalıyız . Bazı açıklamalar: ( 1 ) Sonuçlar, rejimi içindir , bu nedenle vektörlerin boyutu, bu sonuçlar için göz önüne alınan vektörlerin sayısıyla kabaca orantılı olarak büyümelidir. tutmak. ( 2 ) Bu durumda bile, sonuçlar "herhangi bir" dağılım için geçerli değildir; aslında, kâğıttaki koşullar, esasen 30. anın sonlu olmasını zorunlu kıldığımız anlamında, rastgele değişkenlerin "neredeyse katlanarak bağlı" olmasını gerektirir! (devamı)n/pγ(0,)
kardinal

3
(devam). ( 3 ) yakınsama dağıtım yapar olup sınırlayıcı dağıtım edilene araçlarının garanti yakınsama. Bunun için, normalde kümesinin düzgün benzer bir şey kullanırız . Bu makalede gösterilmemiştir ve aşırı değer dağılımları ile uğraşmak doğru olmayabilir. Bu fenomenin en sevdiğim örneklerinden biri, dağılımda bir yaklaşan rastgele değişkenler dizisidir , ancak seçilen herhangi bir pozitif sabitle birleşmek için araçlar yapılabilir. {Ln}χ12
kardinal

2

@Jmtroos tarafından verilen cevaba ek olarak, simülasyonumun detayları ve @ jmtroos'un Jiang'dan (2004) beklentiyi türetmesi ile bir karşılaştırma :

E[Ln2]=1n{2log(N2n28π)+2γ+4lognlog(log(n))}

Bu beklentinin değerleri, küçük için simüle edilen değerlerin üzerinde ve büyük için aşağıdadır ve arttıkça biraz farklılaşmaktadır . Bununla birlikte, makalede dağılımın asimptotik olduğunu iddia ettiği gibi, arttırmak için farklılıklar azalmaktadır . çeşitli denedim . Aşağıdaki simülasyon kullanır . R için oldukça yeniyim, bu yüzden kodumu daha iyi hale getirmek için herhangi bir ipucu veya öneri sıcak karşılanacak.NNNnn[100,500]n=200

set.seed(1)

ns <- 500
# number of simulations for each N

n <- 200
# length of each vector

mu <- 0
sigma <- 1
# parameters for the distribution we simulate from

par(mfrow=c(5,5))
x<-trunc(seq(from=5,to=n, length=20))
#vector of Ns

y<-vector(mode = "numeric")
#vector to store the mean correlations

k<- 1
#index for y

for (N in x) {
# loop over a range of N

    dt <- matrix(nrow=n,ncol=N)

    J <- vector(mode = "numeric")
    # vector to store the simulated largest absolute 
    # correlations for each N

    for (j in 1:ns) {
    # for each N, simulated ns times    

      for (i in 1:N) {
        dt[,i] <- rnorm(n,mu,sigma)
      }
      # perform the simulation

      M<-matrix(cor(dt),nrow=N,ncol=N)
      m <- M
      diag(m) <- NA
      J[j] <- max(abs(m), na.rm=TRUE)   
      # obtain the largest absolute correlation
      # these 3 lines came from stackoverflow
  }

    hist(J,main=paste("N=",N, " n=",n, " N(0,1)", "\nmean=",round(J[j],4))) 
    y[k]<-mean(J)
    k=k+1
}

lm1 <- lm(y~log(x))
summary(lm1)

logx_sq=log(x)^2
lm2<-lm(y~log(x)+logx_sq)
summary(lm2)
# linear models for these simulations

# Jiang 2004 paper, computation:

gamma = 0.5772
yy <- vector(mode = "numeric")
yy <- sqrt((2*log((x^2)/(sqrt(8*pi)*n^2)) + 2*gamma-(-4*log(n)+log(log(n))))/n)


plot(x,yy)
# plot the simulated correlations
points(x,y,col='red')
# add the points using the expectation

Dikkatinizi çektiğiniz bazı tutarsızlıkların açıklanmasına yardımcı olabilecek (veya olmayabilir) diğer cevaba yönelik yorumlarıma bakın.
kardinal
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.