Kısa cevap: Çok sağlam değil. Korelasyon bir ölçüsüdür lineer bağımlılık ve bir değişken zaman olamaz diğer (ve hala verilmiş marjinal dağılıma sahip), sahip olamaz mükemmel (pozitif veya negatif) korelasyon doğrusal fonksiyonu olarak yazılabilir. Aslında, olası korelasyon değerleri ciddi şekilde kısıtlanabilir.
Sorun şu ki, nüfus korelasyonu daima ile 1 arasında olmakla birlikte , elde edilebilecek kesin aralık büyük ölçüde marjinal dağılımlara bağlıdır. Hızlı bir kanıt ve tanıtım:−11
Ulaşılabilir korelasyon aralığı
Eğer dağıtım işlevi vardır , H ve marjinal dağılım fonksiyonları F ve G için bazı oldukça güzel alt ve üst sınırları vardır H ,
H - ( x , y ) ≤ H ( x , y ) ≤ H + ( x , y ) ,
Fréchet sınırları olarak adlandırılır. Bunlar
H - ( x , y )(X,Y)HFGH
H−(x,y)≤H(x,y)≤H+(x,y),
(Kanıtlamaya çalışın; çok zor değil.)
H−(x,y)H+(x,y)=max(F(x)+G(y)−1,0)=min(F(x),G(y)).
U(X,Y)=(F−(U),G−(U))(F−(−U),G−(1−U))
Cov(X,Y)=∬H(x,y)−F(x)G(y)dxdy,
HH+H−YX
Örnekler
İşte birkaç örnek (kanıt olmadan):
XY(X,Y)YX
Y=μY+σYX−μXσX.
−11XY
XYYY=a−bXabYXY[−1/e,1]≈[−0.37,1]
XY
±1e−1−−−−√≈0.76.
Tüm sınırların popülasyon korelasyonu için olduğunu unutmayın . Numune korelasyonu, özellikle küçük numuneler için sınırların dışına kolayca uzayabilir (hızlı örnek: 2 numune büyüklüğü).
Korelasyon sınırlarını tahmin etme
Eğer marjinal dağılımlardan simüle edebiliyorsanız, korelasyonun üst ve alt sınırlarını tahmin etmek oldukça kolaydır. Yukarıdaki son örnek için bu R kodunu kullanabiliriz:
> n = 10^5 # Sample size: 100,000 observations
> x = rnorm(n) # From the standard normal distribution
> y = rlnorm(n) # From the standard lognormal distribution
>
> # Estimated maximum correlation
> cor( sort(x), sort(y) )
0.772
>
> # Estimated minimum correlation
> cor( sort(x), sort(y, decreasing=TRUE) )
−0.769
Yalnızca gerçek verilerimiz varsa ve marjinal dağılımları bilmiyorsak, yukarıdaki yöntemi kullanmaya devam edebiliriz. Gözlem çiftleri bağımlı olduğu sürece değişkenlerin bağımlı olması bir sorun değildir . Ancak birçok gözlem çiftinin olmasına yardımcı olur .
Verileri dönüştürme
YX
Burada gerçekten yaptığınız şey , marjinal dağılımlara bağlı olmayan yeni bir bağımlılık ölçütü yaratmak ; yani, kopula tabanlı bir bağımlılık ölçüsü oluşturuyorsunuz. Zaten böyle bir önlem var, Spearman'ın ρ ve Kendall'ın τ en tanınmışları. (Bağımlılık kavramlarıyla gerçekten ilgileniyorsanız, copula'lara bakmak kötü bir fikir değildir.)
Sonuç olarak
Bazı son düşünceler ve tavsiyeler: Sadece korelasyona bakmanın büyük bir sorunu vardır: Düşünmeyi bırakmanızı sağlar. Öte yandan, saçılma çizimlerine bakmak genellikle düşünmeye başlar . Benim ana tavsiyem bu nedenle dağılım grafiklerini incelemek ve bağımlılığı açıkça modellemeye çalışmak olacaktır.
Bununla birlikte, basit bir korelasyon benzeri ölçüme ihtiyacınız varsa, sadece Spearman'ın ρ'sını (ve ilişkili güven aralığı ve testleri) kullanacağım . Menzili sınırlı değildir. Ancak monoton olmayan bağımlılığın çok farkında olun. Korelasyona Wikipedia makalesi olası sorunları gösteren güzel araziler bir çift vardır.