Bu sonuç hakkında bu kadar ilgi çekici olan şey, bir korelasyon katsayısının dağılımına ne kadar benzediğidir. Bir nedeni var.
(X,Y) nin her iki değişken için sıfır korelasyon ve ortak varyans ile iki değişkenli normal olduğunu varsayalım σ2. Bir iid örneği çizin (x1,y1),…,(xn,yn). Örnek korelasyon katsayısının dağılımının iyi bilindiği ve geometrik olarak (Fisher'ın bir asır önce yaptığı gibi) kolayca kurulduğu bilinmektedir.
r=∑ni=1(xi−x¯)(yi−y¯)(n−1)SxSy
dır-dir
f(r)=1B(12,n2−1)(1−r2)n/2−2, −1≤r≤1.
(Burada, her zamanki gibi, ve ˉ y örnek araçlardır ve G x ve S Y tarafsız varyans tahminleri kare kökleridir.) B olan Beta fonksiyonu için,x¯y¯SxSyB
1B(12,n2−1)=Γ(n−12)Γ(12)Γ(n2−1)=Γ(n−12)π−−√Γ(n2−1).(1)
İşlem için , içinde dönüş altında değişmezliği yararlanabilir R n yoluyla üretilen hat etrafında ( 1 , 1 , ... , 1 ) , aynı dönmelerinden dağılımın değişmezliği ile birlikte, ve tercih y ı / S y , bileşenleri sıfıra eşit olan herhangi bir birim vektör olmalıdır. Böyle bir vektör v = ( n - 1 , - 1 , … , - 1 ) ile orantılıdır . Standart sapmasırRn(1,1,…,1)yi/Syv=(n−1,−1,…,−1)
Sv=1n−1((n−1)2+(−1)2+⋯+(−1)2)−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√=n−−√.
Sonuç olarak, ,r
∑ni=1(xi−x¯)(vi−v¯)(n−1)SxSv=(n−1)x1−x2−⋯−xn(n−1)Sxn−−√=n(x1−x¯)(n−1)Sxn−−√=n−−√n−1Z.
Bu nedenle Z'nin dağılımını bulmak için tek ihtiyacımız olan yeniden satış :rZ
fZ(z)=∣∣n−−√n−1∣∣f(n−−√n−1z)=1B(12,n2−1)n−−√n−1(1−n(n−1)2z2)n/2−2
için . Formül (1) bunun sorunun cevabı ile aynı olduğunu göstermektedir.|z|≤n−1n√
Tamamen ikna olmadınız mı? İşte bu durumu 100.000 kez simüle etmenin sonucu ( dağıtımın tekdüze olduğu ile ).n=4
İlk histogram korelasyon katsayılarını gösterirken, ikinci histogram ( x i , v i ) , i = 1 , … , 4 ) için korelasyon katsayılarını bir tüm iterasyonlar için sabit kalan rastgele seçilmiş vektör v i . İkisi de üniform. Sağdaki QQ grafiği, bu dağılımların özdeş olduğunu doğrulamaktadır.(xi,yi),i=1,…,4(xi,vi),i=1,…,4) vi
İşte R
komployu oluşturan kod.
n <- 4
n.sim <- 1e5
set.seed(17)
par(mfrow=c(1,3))
#
# Simulate spherical bivariate normal samples of size n each.
#
x <- matrix(rnorm(n.sim*n), n)
y <- matrix(rnorm(n.sim*n), n)
#
# Look at the distribution of the correlation of `x` and `y`.
#
sim <- sapply(1:n.sim, function(i) cor(x[,i], y[,i]))
hist(sim)
#
# Specify *any* fixed vector in place of `y`.
#
v <- c(n-1, rep(-1, n-1)) # The case in question
v <- rnorm(n) # Can use anything you want
#
# Look at the distribution of the correlation of `x` with `v`.
#
sim2 <- sapply(1:n.sim, function(i) cor(x[,i], v))
hist(sim2)
#
# Compare the two distributions.
#
qqplot(sim, sim2, main="QQ Plot")
Referans
RA Fisher, süresiz olarak büyük bir popülasyondan alınan örneklerde korelasyon katsayısının değerlerinin frekans dağılımı . Biometrika , 10 , 507. Bkz. Bölüm 3. ( Kendall'ın İleri İstatistik Teorisi , 5. Baskı, bölüm 16.24.)