İki değişkenin toplamı, bireysel değişkenlerden daha fazla varyansı nasıl açıklayabilir?


13

İki yordayıcı negatif korelasyonlu olduğunda toplamın üçüncü değişkenle korelasyonu için bazı şaşırtıcı sonuçlar elde ediyorum. Bu şaşırtıcı sonuçlara neden olan nedir?

Örnek 1: İki değişkenin toplamı ile üçüncü değişkenin korelasyonu

Aşağıda gösterilen Guildford'un 1965 metninin 427. sayfasındaki formül 16.23'ü düşünün.

Şaşırtıcı bulgu: Her iki değişken de .2'yi üçüncü değişkenle ve -.7'yi birbiriyle ilişkilendirirse, formül 0,52 değeriyle sonuçlanır. İki değişkenin her biri sadece .2'yi üçüncü değişkenle ilişkilendirirse toplamın üçüncü değişkenle korelasyonu nasıl olabilir?

Örnek 2: İki değişken ile üçüncü değişken arasındaki çoklu korelasyon nedir?

Guildford'un 1965 metninin 404. sayfasındaki formül 16.1'i düşünün (aşağıda gösterilmiştir).

Şaşırtıcı bulgu: Aynı durum. Her iki değişken de .2'yi üçüncü değişkenle ve -.7'yi birbiriyle ilişkilendirirse, formül 0,52 değerine neden olur. İki değişkenin her biri sadece .2'yi üçüncü değişkenle ilişkilendirirse toplamın üçüncü değişkenle korelasyonu nasıl olabilir?

Hızlı bir Monte Carlo simülasyonu denedim ve Guilford formüllerinin sonuçlarını doğruladı.

Ancak, iki öngörücünün her biri üçüncü değişkenin varyansının% 4'ünü öngörüyorsa, bunların toplamı varyansın 1 / 4'ünü nasıl tahmin edebilir?

iki değişkenin toplamının üçüncü değişkenle korelasyonu iki değişkenin üçüncü değişkenle çoklu korelasyonu

Kaynak: Psikoloji ve Eğitimde Temel İstatistikler, 4. baskı, 1965.

AÇIKLAMA

Karşılaştığım durum, bireylerin şimdi yeteneklerini ölçmeye dayalı gelecekteki performanslarını tahmin etmeyi içerir.

Aşağıdaki iki Venn diyagramı durum hakkındaki anlayışımı gösterir ve benim şaşkınlığımı netleştirmek içindir.

Bu Venn diyagramı (Şekil 1) x1 ve C arasındaki sıfır r = .2 sırasını yansıtır. Alanımda bir kriteri mütevazi olarak tahmin eden bu gibi birçok tahmin değişkeni vardır.

Şekil 1

Bu Venn diyagramı (Şekil 2), her biri C'yi r = .2'de tahmin eden iki öngörü ve iki belirleyici, r = - .7 gibi iki öngörücüyü yansıtır.

İncir. 2

İki r = .2 öngörücüsü arasında, C varyansının% 25'ini tahmin etmelerini sağlayacak bir ilişki öngören bir kayıptayım.

X1, x2 ve C arasındaki ilişkiyi anlamak için yardım arıyorum.

(Soruma cevap olarak bazılarının önerdiği gibi) x2, x1 için bir baskılayıcı değişken olarak davranıyorsa, ikinci Venn diyagramında hangi alan bastırılıyor?

Somut bir örnek yardımcı olacaksa, x1 ve x2'nin iki insan yeteneği ve C'nin 4 yıl sonra 4 yıllık üniversite not ortalaması olduğunu düşünebiliriz.

Bir süpresör değişkeninin iki r = .2 sıfır dereceli r'nin% 8 açıklanmış varyansının C varyansının% 25'ini büyütmesine ve açıklamasına nasıl neden olabileceğini düşünmekte sorun yaşıyorum. Somut bir örnek çok yararlı bir cevap olacaktır.


İstatistiklerde, bir dizi bağımsız değişken toplamının varyansının varyanslarının toplamına eşit olduğuna dair eski bir kural vardır.
Mike Hunter

@DJohnson. Yorumunuz sorulan soru ile nasıl ilişkilidir?
Joel W.

Üzgünüm, soruyu anlamıyorum. Bana göre bunun nasıl bir ilişki olduğu açık. Ayrıca, ne ödül için uygun olan ne de daha derin detaylandırma gerektiren bir yorumdur.
Mike Hunter

1
@DJohnson. Yorumunuz sorulan soru ile nasıl ilişkilidir? Bana göre, nasıl bir ilişki olduğu belli değil.
Joel W.20

2
N görüntülemenin anlamı hakkındaki sorunuz Meta CV sitesinde daha iyi yanıt alabilir.
mdewey

Yanıtlar:


3

Bu, iki öngörücünün her ikisi de büyük bir sıkıntı faktörü içerdiğinde, ancak ters işaretle olabilir, bu yüzden onları topladığınızda rahatsızlık iptal edilir ve üçüncü değişkene çok daha yakın bir şey elde edersiniz.

Daha da uç bir örnekle açıklayalım. Varsayalım bağımsız standart normal rasgele değişkenlerdir. Şimdi izin verX,YN(0,1)

A=X

B=X+0.00001Y

Söyle üçüncü değişken, olur sizin iki habercisi olabilmekte ve hakkında hiçbir şey bilmiyorum gizli bir değişkendir. A'nın Y ile korelasyonu 0 ve B'nin Y ile korelasyonu çok küçüktür, 0.00001'e yakındır. * Ancak ile korelasyonu 1'dir.A , B X A + B YYA,BXA+BY

* B'nin standart sapmasının 1'den biraz fazla olması için ufacık bir düzeltme var.


Sosyal bilimlerde bu tür bir durum ortaya çıkıyor mu?
Joel W.

1
Sosyal bilim jargonunda, bu temel olarak zayıf bir etkiyi belirli bir şekilde karıştırıcı güçlü bir etkidir. Ben bir sosyal bilim uzmanı değilim, ama bunun bir örneğini bulmanın zor olduğunu düşünemiyorum.
Paul

Fizik bilimlerinden başka örnekleriniz olabilir mi?
Joel W.

Açıkladığınız ilişki bir Venn diyagramında gösterilebilir mi?
Joel W.

Kişisel olarak burada bir Venn diyagramı bulamazdım, ancak eğer gerekirse, B'yi bir dikdörtgen olarak çizerdim, sonra iki alt dikdörtgene, büyük bir şişman bir A ve küçük bir sıska Y'ye bölerdim. A büyük bölümünü iptal etmek ve Y küçük parçasını bırakmak
Paul

10

Üç değişkeni ilişkisiz diğer değişkenlerin doğrusal kombinasyonları olarak düşünmek yararlı olabilir. Anlayışımızı geliştirmek için onları geometrik olarak tasvir edebilir, onlarla cebirsel olarak çalışabilir ve istediğimiz gibi istatistiksel açıklamalar sağlayabiliriz.

O halde, korelasyonsuz üç ortalama, birim-varyans değişkeni , ve düşünün . Bu yapılardan aşağıdakiler:XYZ

U=X,V=(7X+51Y)/10;W=(3X+17Y+55Z)/75.

Geometrik Açıklama

Aşağıdaki grafik, bu değişkenler arasındaki ilişkileri anlamak için ihtiyacınız olan her şeyle ilgilidir.

şekil

Bu sahte 3D diyagram koordinat sisteminde , , ve gösterir . Vektörler arasındaki açılar korelasyonlarını yansıtır (korelasyon katsayıları açıların kosinüsüdür). ve arasındaki büyük negatif korelasyon, aralarındaki geniş açıda yansıtılır. ve ile küçük pozitif korelasyonları, birbirine yakın dikliklerinden yansır. Bununla birlikte, ve toplamı doğrudan altına düşerUVWU+VX,Y,ZUVUVWUVW, keskin bir açı (yaklaşık 45 derece) yapmak: beklenmedik derecede yüksek pozitif korelasyon var.


Cebirsel Hesaplamalar

Daha fazla titizlik isteyenler için, grafikteki geometriyi yedeklemek için cebir.

Tüm bu kare kökler, , ve birim varyanslarına sahip olmasını sağlamak için oradadır : bu, korelasyonlarını hesaplamayı kolaylaştırır, çünkü korelasyonlar kovaryanslara eşit olacaktır. bu nedenleUVW

Cor(U,V)=Cov(U,V)=E(UV)=E(51XY7X2)/10=7/10=0.7

çünkü ve ilişkisizdir. Benzer şekilde,XY

Cor(U,W)=3/75=1/5=0.2

ve

Cor(V,W)=(73+1517)/(1075)=1/5=0.2.

En sonunda,

Cor(U+V,W)=Cov(U+V,W)Var(U+V)Var(W)=1/5+1/5Var(U)+Var(V)+2Cov(U,V)=2/51+12(7/10)=2/53/50.5164.

Sonuç olarak, bu üç değişken istenen korelasyonlara sahiptir.


İstatistiksel Açıklama

Şimdi her şeyin neden olduğu gibi çalıştığını görebiliriz:

  • U ve arasında güçlü bir negatif korelasyona sahiptir, çünkü , negatifi ile küçük bir katı şeklinde küçük bir "gürültü" ile orantılıdır .V7/10VUY

  • U ve , arasında zayıf pozitif korelasyona sahiptir, çünkü , küçük bir katını ve ayrıca ve katları şeklinde çok fazla gürültü içerir .W1/5WUYZ

  • V ve arasında zayıf pozitif korelasyona sahiptir, çünkü ( hiçbir korelasyonu değiştirmeyecek çarpıldığında ) üç şeyin toplamıdır:W1/5W75

    • 17Y ile pozitif korelasyon gösteren ;V
    • 3X , ile negatif korelasyonu genel korelasyonu azaltır;V
    • ve çok fazla gürültü yaratan katları .Z
  • Bununla birlikte, oldukça pozitif olarak korelasyon bunun nedeni içermeyen bu kısmının katları .GWZU+V=(3X+51Y)/10=3/100(3X+17Y)WWZ


Bunu bir Venn diyagramında göstermenin bir yolu var mı? Matematiğe rağmen, yine de toplam değişkene giren iki değişkenin her birinin kapalı olduğunu tahmin ederken üçüncü bir değişkenin varyansının% 25 + %'sini açıklayan iki değişkenin toplamının mantığını görmüyorum, ancak üçüncü değişkenin varyansının% 4'ü . Açıklanan varyans, sadece iki değişkeni ekleyerek nasıl% 25 açıklanmış varyans haline gelebilir?
Joel W.15

Ayrıca, bu garip fenomenin pratik uygulamaları var mı?
Joel W.15

Bir Venn diyagramı açıklanan varyansı temsil etmek için uygun değilse bana neden uygunsuz olduğunu söyleyebilir misiniz?
Joel W.

@JoelW. Buradaki güzel cevap, Venn diyagramlarının neden bu fenomeni (cevabın sonuna doğru) gösterme görevine bağlı olmadığına değiniyor
Jake Westfall

Joel, Cohens, varyansları analiz etmek için "Ballantine" adını verdikleri Venn benzeri bir diyagram kullandı. Örneğin, ww2.amstat.org/publications/jse/v10n1/kennedy.html adresine bakın . Pratik uygulamalara gelince, karşıt soruyu sormalısınız: hangi varyans ve varyans ayrışması uygulamaları pratik değildir ?
whuber

5

Başka bir basit örnek:

  • zN(0,1)
  • x1N(0,1)
  • x2=zx1z=x1+x2

Sonra:

  • Corr(z,x1)=0
  • Corr(z,x2).7
  • Corr(z,x1+x2)=1

Geometrik olarak, WHuber'ın grafiğindeki gibi. Kavramsal olarak şöyle görünebilir: resim açıklamasını buraya girin

E[XY]

x1 ve ilişkisizdir, dolayısıyla dikeydirler. Let iki vektör arasındaki göstermektedirler açı.zθ

  • Corr(z,x1)=cosθzx1=0θz,x1=π2
  • Corr(z,x2)=cosθzx2.7θz,x2=π4
  • Corr(z,x1+x2)=cosθz,x1+x2=1θz,x1+x2=0

Yorumların Flounderer yanıtını tartışma bağlanmak için, düşünmek bazı sinyal olarak bazı gürültü olarak ve gürültülü sinyal sinyali toplamı olarak ve gürültü . Ekleme için gürültü çıkararak eşdeğerdir gürültülü sinyal gelen .- x 1 x 2 z - x 1 x 1 x 2 - x 1 x 2zx1x2zx1x1x2x1x2


(+1) Güzel örnek!
user795305

Lütfen cevabınızın tesislerini açıklayınız. Z = x1 + x2 poz verdikten sonra neden “o zaman Corr (z, x1) = 0” deyin? İlk Let ifadenizden Corr (z, x1) = 0'ın geldiğini mi söylüyorsunuz yoksa sıfır korelasyonu ek bir varsayım mı? Ek bir varsayım ise, asıl sorudaki durum neden bu ek varsayımı gerektirir?
Joel W.

zx1zx1zx1x2

@MatthewGunn. Üçüncü Let'iniz z = x1 + x2 diyor. Bu, z ve x1'in bağımsız olduğunu söyleyen ilk iki parçanızı ihlal ediyor gibi görünüyor.
Joel W.

1
z=x1+x2zx1

3

Yorumunuzu adresleme:

Matematiğe rağmen, yine de toplam değişkene giren iki değişkenin her birinin kapalı olduğunu tahmin ederken üçüncü bir değişkenin varyansının% 25 + %'sini açıklayan iki değişkenin toplamının mantığını görmüyorum, ancak üçüncü değişkenin varyansının% 4'ü . Açıklanan varyans, sadece iki değişken eklenerek% 25 açıklanmış varyans haline nasıl gelir?

Buradaki mesele "varyans açıklandı" terminolojisi gibi görünüyor. İstatistiklerdeki birçok terim gibi, bu, gerçekte olduğundan daha fazla anlamına geldiği gibi ses çıkarmak için seçildi.

İşte basit bir sayısal örnek. Bazı değişkenlerinin olduğunu varsayalımY

y=(6,7,4,8,9,6,6,3,5,10)

UYRRY

r=(20,80,100,90,50,70,40,30,40,60)

U=R+0.1Y

u=(19.4,79.3,100.4,90.8,50.9,70.6,40.6,30.3,40.5,61.0)

V=R+0.1Y

v=(20.6,80.7,99.6,89.2,49.1,69.4,39.4,29.7,39.5,59.0)

UVYr0.2YY

YUURVRYU+V

Değişkenlerin her birinin grafiği

ABBA


@ naught101 değişkenlerinizi göstermek için bazı rakamlar yarattı, Flounderer. Bunları dahil etmenin size cazip gelip gelmediğini görmek isteyebilirsiniz.
gung - Monica'yı eski durumuna döndürün

Tabii, istediğiniz gibi düzenleyin. Aslında iş yerinde imgur göremiyorum ama eminim iyi olacak!
Flounderer

Öneriyi reddettim, b / c Burada sizinle temasa geçtiğini görmedim. Bununla birlikte, önerilen düzenleme sırasına giderek onaylayabilirsiniz.
gung - Monica'yı eski durumuna döndürün

Verdiğiniz örnek dikkatlice hazırlanmışsa ilginçtir, ancak sunduğum durum daha geneldir (sayılar dikkatlice seçilmemiştir) ve 2 değişken N'ye dayanmaktadır (0,1). Terminolojiyi "açıklar" dan "paylaşılan" olarak değiştirsek bile, soru devam etmektedir. Her biri üçüncü bir değişkenle% 4 paylaşılan varyansa sahip 2 rastgele değişken, formüle göre üçüncü bir değişkenle% 25 paylaşılan varyansa sahip basit bir toplam açısından nasıl birleştirilebilir? Ayrıca, hedef tahmin ise, paylaşılan varyanstaki bu garip artışın gerçek dünyadaki pratik uygulamaları var mı?
Joel W.16

Elektronikte herhangi bir yerde (yüksek gürültü + zayıf sinyal) + (-yüksek ses) = zayıf sinyal varsa, bunu uygularsınız. Örneğin, gürültü önleyici kulaklıklar.
Flounderer
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.