Her grupta korelasyon anlamlı fakat hepsinde anlamlı değil mi?


9

ve gruplarında değişken ve arasındaki Pearson korelasyonunu test ettiğimizi varsayalım . korelasyonunun ve her birinde anlamlı olması , ancak her iki gruptan veriler birleştirildiğinde anlamlı olmaması mümkün müdür ? Bu durumda, lütfen bunun için bir açıklama yapabilir misiniz?xybirB(x,y)birB

Yanıtlar:


21

Evet, bu mümkün ve her türlü şekilde olabilir. Açık bir örnek, A ve B üyeliğinin x ve y değerlerini yansıtacak şekilde seçilmesidir. Başka örnekler de mümkündür, örn. @ Macro'nun yorumu alternatif bir olasılık önerir.

Aşağıdaki örneği göz önünde bulundurun, R ve x'de yazılmış standart normal değişkenlerdir, ancak bunları x ve y'nin nispi değerlerine göre gruplara ayırırsam, adınızı soyduğunuz sıralamayı alırım. Grup A ve grup B'de x ve y arasında istatistiksel olarak anlamlı bir korelasyon vardır, ancak gruplama yapısını göz ardı ederseniz korelasyon yoktur.

resim açıklamasını buraya girin

> library(ggplot2)
> x <- rnorm(1000)
> y <- rnorm(1000)
> Group <- ifelse(x>y, "A", "B")
> cor.test(x,y)

        Pearson's product-moment correlation

data:  x and y 
t = -0.9832, df = 998, p-value = 0.3257
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 -0.09292  0.03094 
sample estimates:
     cor 
-0.03111 

> cor.test(x[Group=="A"], y[Group=="A"])

        Pearson's product-moment correlation

data:  x[Group == "A"] and y[Group == "A"] 
t = 11.93, df = 487, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 0.4040 0.5414 
sample estimates:
   cor 
0.4756 

> cor.test(x[Group=="B"], y[Group=="B"])

        Pearson's product-moment correlation

data:  x[Group == "B"] and y[Group == "B"] 
t = 9.974, df = 509, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 0.3292 0.4744 
sample estimates:
   cor 
0.4043 
> qplot(x,y, color=Group)

+1. Bu benim başıma gelmemiş çok zekice bir örnek.
Makro

13

Bir olasılık, etkilerin her grupta farklı yönlere doğru gitmesi ve bunları topladığınızda iptal edilmesidir . Bu, bir regresyon modelinde önemli bir etkileşim terimini bıraktığınızda, ana etkilerin nasıl yanıltıcı olabileceği ile de ilgilidir.

Örneğin, grup olarak varsayalım bir, cevap arasındaki gerçek ilişki yben ve öngörücü xben dır-dir:

E(yben|xben,G,rÖup bir)=1+xben

ve grup halinde B,

E(yben|xben,G,rÖup B)=1-xben

Grup üyeliğinin dağıtıldığını ve

P(G,rÖup bir)=1-P(G,rÖup B)=p
Ardından, grup üyeliği üzerinde marjinalleşir ve hesaplarsanız E(yben|xben)tarafından toplam Beklenti Kanun Alacağınız

E(yben|xben)=E(E(yben|xben,G,rÖup))=p(1+xben)+(1-p)(1-xben)=p+pxben+1-xben-p+pxben=1-xben(2p-1)

Bu nedenle, p=1/2, E(yben|xben)=1 ve bağımlı değil xbenhiç. Dolayısıyla, her iki grupta da bir ilişki vardır, ancak onları birleştirdiğinizde bir ilişki yoktur. Başka bir deyişle, grup üyeliğini bilmediğimiz popülasyonda rastgele seçilen bir birey için, ortalama olarak,xben ve yben. Ancak, her grupta vardır.

Herhangi bir örnek p her gruptaki efekt boyutlarını mükemmel bir şekilde dengeler de bu sonuca yol açacaktır - bu, hesaplamaları kolaylaştırmak için sadece bu oyuncak örneğiydi :)

Not: Normal hatalarda, doğrusal regresyon katsayısının önemi Pearson korelasyonunun önemine eşdeğerdir, bu nedenle bu örnek gördüğünüz şey için bir açıklamayı vurgular.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.