X ve Y arasında korelasyon yoktur, ancak X çoklu regresyonda Y'nin önemli bir prediktörüdür. Bunun anlamı ne?


34

X ve Y arasında korelasyon yoktur (-.01); Bununla birlikte, X'i Y'yi öngören çoklu bir regresyona yerleştirdiğimde, üç (A, B, C) diğer (ilişkili) değişkenlerin yanı sıra, X ve diğer iki değişken (A, B) Y'nin önemli belirleyicileridir. A, B) değişkenleri, regresyon dışındaki Y ile anlamlı şekilde ilişkilidir.

Bu bulguları nasıl yorumlamalıyım? X, Y'de benzersiz bir varyansı yordamaktadır, ancak bunlar ilişkilendirilmediğinden (Pearson), yorumlanması zor bir hal almaktadır.

Karşıt vakaları biliyorum (yani iki değişken ilişkilendirildi, ancak regresyon anlamlı değil) ve bunlar teorik ve istatistiksel açıdan anlaşılması daha kolay. Tahmin edicilerin bazılarının oldukça korelasyonlu olduğuna dikkat edin (örn., 70), ancak çok yönlü bir doğrusallık beklediğim ölçüde değil. Belki de yanıldım.

NOT: Bu soruyu daha önce sordum ve kapatıldı. Mantıklı olan, bu sorunun " Bir gerileme nasıl anlamlı olabilir, ancak tüm tahminciler önemsiz olamaz " sorusuyla gereksizdir.". Belki de diğer soruyu anlamıyorum, ancak bunların hem matematiksel hem de teorik olarak tamamen ayrı sorular olduğuna inanıyorum. Sorumum" bir gerileme önemli "olmasından tamamen bağımsızdır. Ayrıca, birkaç soru önemli, diğer soru ise anlamlı olmama değişkenleri gerektirir, bu yüzden çakışmayı görmüyorum, eğer bu sorular anlamadığım nedenlerden dolayı gereksizse, lütfen bu soruyu kapatmadan önce bir yorum ekleyin .. Ayrıca, diğerini kapatan moderatöre mesaj atmayı umuyordum. Aynı soruları önlemek için soru, ancak bunu yapmak için bir seçenek bulamadım.


2
Bunun bir önceki soruya çok benzer olduğunu düşünüyorum. Eğer X ve Y esas olarak ilişkisiz ise, basit bir doğrusal regresyonda, X için eğim katsayısı önemli olmayacaktır. Tüm eğim tahminlerinden sonra, örnek korelasyonuyla orantılıdır. Somun çoklu regresyonu farklı bir hikaye olabilir, çünkü X ve Z birlikte Y'deki değişkenliği çok açıklayabilirler. Cevabım önceki sorunun cevaplarına benzer geldiği için belki de belirgin bir benzerlik göstermektedir.
Michael R. Chernick

2
Cevabınız için teşekkür ederim ve diğer konudaki çok ayrıntılı cevap. Tezini almak için birkaç defa okumam gerekecek. Sanırım diğer kaygım, belki de istatistiki veya matematiksel olmak yerine pratik olarak nasıl yorumlanacağı. Diyelim ki yüzme hızı ve sürekli kaygı ilişkili değil, ama sürekli kaygı, diğer öngörücülerin yanı sıra çoklu bir regresyonda yüzme hızının önemli bir yordayıcısı. Bu pratikte nasıl mantıklı olabilir? Bunu bir klinik derginin tartışma bölümüne yazdığınızı varsayalım!
Behacad

3
Her iki soruyu da yinelenen sayılmayacak kadar farklı tuttuğunuzdan, lütfen cevabınızı diğerine iletmekten çekinmeyin. Michael Chernick puan @ onlar temelde aynıdır dışarı - - Yeni bir not, ben inanıyorum, sorular matematiksel olarak farklıdır varsayarak yanlıştır (. Başlangıçta fark takdir için özür dilerim) ama vurgu yorumlanması geçerli bir neden kurar iplikleri ayrı tutmak için.
whuber

1
Ben de cevabı buraya taşıdım. Her iki sorunun da oldukça farklı olduğunu ancak bazı ortak açıklamaları paylaşabileceğini düşünüyorum.
JDav,

1
Bu web sayfasında ilgili konularla ilgili başka bir harika tartışma var. Uzun, ama çok iyi ve sorunları anlamanıza yardımcı olabilir. Tamamen okumanızı tavsiye ederim.
gung - Reinstate Monica

Yanıtlar:


39

Nedensel teori, iki değişkenin koşulsuz olarak nasıl bağımsız ve koşullu olarak bağımlı olabileceği konusunda başka bir açıklama sunar. Nedensel teori konusunda uzman değilim ve aşağıda herhangi bir yanlış yönlendirmeyi düzeltecek herhangi bir eleştiri için minnettarım.

Örneklemek için, yönlendirilmiş asiklik grafikleri (DAG) kullanacağım . Bu grafiklerde değişkenler arasındaki kenarlar ( ) doğrudan nedensel ilişkileri temsil etmektedir. Ok başları ( veya ) nedensel ilişkilerin yönünü gösterir. Böylece , doğrudan neden olduğunu , ise doğrudan neden olduğunu gösterir . çıkarttığı bir nedensel yolu dolaylı neden ileABABABABbirBCbirCB. Basit olması için tüm nedensel ilişkilerin doğrusal olduğunu varsayın.

Öncelikle, basit bir kafa karıştırıcı önyargı örneği düşünün :

karıştırıcı

Burada, iki değişkenli basit bir regresyon, ve arasında bir bağımlılığa işaret edecektir . Bununla birlikte, ve arasında doğrudan bir nedensel ilişki yoktur . Bunun yerine her ikisi de doğrudan kaynaklanır ve basit iki değişkenli regresyonda, gözlemlenmesi, ve arasında bir bağımlılığa neden olur ve bu da kafa karıştırıcı olarak yanlılığa neden olur . Bununla birlikte, üzerindeki çok değişkenli bir regresyon koşullandırma önyargısını ortadan kaldıracak ve ile arasında bir bağımlılık olmadığını öne sürecektir .XYXYZZXYZXY

İkincisi, çarpıştırıcı önyargı örneğini düşünün (bunun ayrıca seçim önyargısının özel bir tür olduğu Berkson önyargısı veya berksonian önyargısı olarak da bilinir):

çarpıştırıcısı

Burada, iki değişkenli basit bir regresyon, ve arasında bir bağımlılık olmadığını gösterecektir . Bu, ile arasında doğrudan bir nedensel ilişki bulunmayan DAG ile aynı fikirde . Bununla birlikte, üzerindeki çok değişkenli bir regresyon koşullandırma, ve arasında bir bağımlılık yaratacaktır ; bu, aslında hiçbiri olmadığında, iki değişken arasında doğrudan bir nedensel ilişkinin olabileceğini düşündürmektedir. çok değişkenli regresyona dahil edilmesi, çarpıştırıcı önyargı ile sonuçlanır.XYXYZXYZ

Üçüncüsü, tesadüfi iptali için bir örnek düşünün:

iptal

, ve yol katsayıları olduğunu ve olduğunu varsayalım . Basit bir iki değişkenli regresyon, ve arasında hiçbir bağımlılık göstermeyecektir . Her ne kadar doğrudan bir nedeni aslında , bir karıştırıcı etkisi üzerindeki ve tesadüfen etkisini ortadan kaldırır üzerinde . A değişkenli regresyon condition karıştırıcı etkisi kaldırır ile veαβγβ=-αγXYXYZXYXYZZXYnedensel modelin DAG'sinin doğru olduğu varsayımıyla üzerindeki doğrudan etkisinin tahmin edilmesine izin verilmesi .XY

Özetlemek:

Confounder örneği: ve iki değişkenli regresyona bağımlıdır ve confounder üzerindeki çok değişkenli regresyon koşullandırmada bağımsızdır .XYZ

Çarpıştırıcı örneği: ve , iki değişkenli regresyonda bağımsızdır ve çarpıştırıcı üzerindeki çok değişkenli regresyon şartlandırmasına bağlıdır .XYZ

Inicdental iptal örnek: ve bivariable regresyon bağımsız ve karıştırıcı ile değişkenli Regresyon koşullama bağlıdır .XYZ

Tartışma:

Analizinizin sonuçları, karıştırıcı örnekle uyumlu değildir, ancak hem çarpıştırıcı örneğiyle hem de olası iptal örneğiyle uyumludur. Böylece, potansiyel bir açıklaması hatalı bir şekilde çok değişkenli regresyon bir hızlandırıcı değişkeni durumunu ve arasında bir ilişki neden olmasıdır ve halde bir nedeni değildir ve bir neden değildir . Alternatif olarak, çok değişkenli regresyonunuzda, üzerindeki iki değişkenli regresyonunuzdaki gerçek etkisini tesadüfen iptal eden bir karartıcı üzerinde doğru şekilde şartlanmış olabilirsiniz.XYXYYXXY

İstatistiksel modellerde hangi değişkenleri içereceğini düşünürken nedensel modeller oluşturmak için arka plan bilgisini kullanmayı düşünüyorum. Önceki yüksek kaliteli olduğu sonucuna çalışmalar randomize, örneğin, X neden olan Z ve Y olur Z , O güçlü bir varsayım olabilir Z a hızlandırıcı olup X ve Y , bir istatistik modelinden bunun üzerine olup durumu. Ben sadece o bir sezgi olsaydı Ancak, X nedenleri Z ve Y sebep Z , ancak hiçbir güçlü bilimsel kanıtlar sezgimin desteklemek için, sadece zayıf bir varsayım yapabilir Zİnsan sezgisinin yanlış yönlendirilme öyküsü olduğu için X ve Y çarpışmasıdır . Daha sonra, Z ile nedensel ilişkilerini incelemeden X ve Y arasındaki nedensel ilişkilere değinme konusunda şüpheci olurdum . Veya arka plan bilgisine ek olarak yerine, örneğin PC algoritma ve FCI algoritması, (bkz dernek testler serires kullanarak verilerden anlaması nedensel modeller için tasarlanmış algoritmalar da vardır tetratlardır Java uygulanması için PCALGZR uygulaması için). Bu algoritmalar çok ilginç, ancak nedensel teoride nedensel hesap ve nedensel modellerin gücü ve sınırlamaları hakkında güçlü bir anlayış olmadan onlara güvenmeyi tavsiye etmem.

Sonuç:

Nedensel modellerin tefekkür edilmesi, araştırmacının, buradaki diğer cevaplarda tartışılan istatistiksel hususları ele almasına izin vermez. Bununla birlikte, nedensel modellerin, istatistiksel modellerde, özellikle potansiyel kafa karıştırıcıları ve çarpıştırıcıları görselleştirirken, gözlemlenen istatistiksel bağımlılık ve bağımsızlık için olası açıklamaları düşünürken yararlı bir çerçeve sağlayabileceğini düşünüyorum.

Daha fazla okuma:

Gelman, Andrew. 2011. " Nedensellik ve İstatistiksel Öğrenme ." Am. J. Sosyoloji 117 (3) (Kasım): 955-966.

Grönland, S, J Pearl ve JM Robins. 1999. “ Epidemiyolojik Araştırmalar İçin Nedensel Diyagramlar .” Epidemiyoloji (Cambridge, Mass.) 10 (1) (Ocak): 37–48.

Grönland, Sander. 2003. “ Nedensel Modellerde Önyargıların Ölçülmesi: Klasik Şaşırtmaya Karşı Vs Çarpıştırıcı-Tabakalaşma Yanlılığı.” Epidemiyoloji 14 (3) (1 Mayıs): 300–306.

Pearl, Judea. 1998 Hiçbir İstatistiksel Deney İçin Confounding var mı Neden Onlar Neredeyse Sağ Are Neden, Neden Birçok Orada olduğunu düşünüyorum ve .

Pearl, Judea. 2009. Nedensellik: Modeller, Muhakeme ve Çıkarım . 2. baskı Cambridge Üniversitesi Basını.

Ruhlar, Peter, Clark Glymour ve Richard Scheines. 2001. Nedensellik, Tahmin ve Ara , İkinci Baskı. Bir Bradford Kitabı.

Güncelleme: Judea Pearl, nedensel çıkarım teorisini ve nedensel çıkarımı Amstat News'in Kasım 2012 sayısında tanıtıcı istatistik kurslarına dahil etme ihtiyacını tartışıyor . Onun Turing Ödülü Ders başlıklı "nedensel çıkarsama mekanizasyonu: A 'mini' Turing Testi ve ötesinde" ilgi de.


Nedensel argümanlar kesinlikle geçerlidir ancak araştırmacı için bu yaklaşıma abone olmak, altta yatan fenomen hakkında çok iyi bilgi gerektirir. @ Behacad'ın yaptığı analizin sadece keşif amaçlı olup olmadığını merak ediyorum.
JDav,

1
@Behacad: As my cevapta belirtildiği, sana tek unutmak için önermek senin sorunun çok değişkenli bir ve iki değişkenli olmasın. İlgilendiğiniz değişkenin etkisini ölçmek için, x'in ölçülen etkisini bozabilecek başka çeşitlilik kaynaklarını kontrol etmeniz gerekir. ρ
JDav,

5
+1 Resimler ve açıklamalar çok net ve anlaşılır. Çaba ve araştırma için (tabii ki) bu cevaba girmiş olduğunuz için teşekkür ederiz.
whuber

1
Ayrıca, birisi bana "Üçüncüsü, tesadüfi iptali için bir örnek düşünün?" Gibi pratik bir örnek verebilir mi? Nedensellik sorunu ortaya çıkıyor. Eğer X ve Y birbiriyle ilişkilendirilmezse (yani, X'teki değişiklikler Y'deki
Behacad

4
Bunlar için bazı alternatif isimler olduğunu belirtmekte fayda var: Confounder -> Ortak Sebep Modeli; Çarpıştırıcı -> Ortak Etki Modeli; Kaza Sonucu İptal Özel bir Kısmi Arabuluculuk vakasıdır.
gung - Reinstate Monica

22

@ Jthetzel'in yaklaşımının doğru olduğunu düşünüyorum (+1). Bu sonuçları yorumlamak için, ilişkilerin neden böyle tezahür ettiği konusunda bir teori düşünmeniz / bazı teorilere sahip olmanız gerekir. Yani, verilerinizin altında yatan nedensel ilişkilerin modelini düşünmeniz gerekecektir. Jthetzel'in işaret ettiği gibi, sonuçlarınızın birkaç farklı veri üretme süreci ile tutarlı olduğunu anlamanız gerekir. Aynı veri setinde herhangi bir ek istatistiksel testin bu olasılıkları ayırt etmenize izin vereceğini sanmıyorum (kesinlikle daha fazla deney olsa da). Bu yüzden, konu hakkında bilinenleri düşünmek çok önemlidir.

Sizinki gibi sonuçlar doğurabilecek başka bir olası durumu işaret etmek istiyorum: Bastırma . Ok diyagramlarını kullanarak göstermek daha zordur, ancak onları hafifçe arttırabilirsem, şöyle düşünebiliriz:

görüntü tanımını buraya girin

Other VariableURSuppressorYOther VariableSuppressorYSuppressorOther Variable Bu durumda (ve dolayısıyla, yine de, alanın bilgisine dayanan temeli oluşturan şeyin ne olduğunu düşünmeniz gerekir).

SuppressorYOther VariableY

set.seed(888)                            # for reproducibility

S  =         rnorm(60, mean=0, sd=1.0)   # the Suppressor is normally distributed
U  = 1.1*S + rnorm(60, mean=0, sd=0.1)   # U (unrelated) is Suppressor plus error
R  =         rnorm(60, mean=0, sd=1.0)   # related part; normally distributed
OV = U + R                               # the Other Variable is U plus R
Y  = R +     rnorm(60, mean=0, sd=2)     # Y is R plus error

cor.test(S, Y)                           # Suppressor uncorrelated w/ Y
# t = 0.0283, df = 58, p-value = 0.9775
# cor 0.003721616 

cor.test(S, OV)                          # Suppressor correlated w/ Other Variable
# t = 8.655, df = 58, p-value = 4.939e-12
# cor 0.7507423

cor.test(OV,Y)                           # Other Var not significantly cor w/ Y
# t = 1.954, df = 58, p-value = 0.05553
# cor 0.2485251

summary(lm(Y~OV+S))                      # both Suppressor & Other Var sig in mult reg
# Coefficients:
#              Estimate Std. Error t value Pr(>|t|)   
# (Intercept)   0.2752     0.2396   1.148  0.25557   
# OV            0.7232     0.2390   3.026  0.00372 **
# S            -0.7690     0.3415  -2.251  0.02823 * 

Buradaki amacım bu durumun verilerinizin temelini oluşturduğu değildir. Bunun, jthetzel'in önerdiğinden daha az mı yoksa daha az mı olduğunu bilmiyorum. Bunu sadece düşünce için daha fazla yiyecek olarak sunuyorum. Mevcut sonuçlarınızı yorumlamak için bu olasılıkları düşünmeniz ve en anlamlı olanı seçmeniz gerekir. Seçiminizi onaylamak için dikkatli bir deney yapmanız gerekecektir.


2
Mükemmel! Teşekkür ederim. Bu, verilerimde neler olabileceğinin bir başka güzel örneği olarak hizmet ediyor. Görünüşe göre, sadece bir cevabı kabul edebiliyorum ...
Behacad

Sorun değil, @ Behacad, bence jthetzel onay işaretini hak ediyor; Yardım ettiğim için mutluyum.
gung - Reinstate Monica

7

Mümkün olan sadece bir görselleştirme.

Resimde (a) “normal” veya “sezgisel” gerileme durumu gösterilmektedir. Bu resim burada veya burada bulunan (ve açıklanan) örneklerle aynıdır .

Y'Y^b

b1b2X1X2

görüntü tanımını buraya girin

X1YY'X1Y'X2

X1YX1

Yaklaşık olarak pic (b) 'ye karşılık gelen veri ve analiz:

       y       x1       x2
1.644540 1.063845  .351188
1.785204 1.203146  .200000
-1.36357 -.466514 -.961069
 .314549 1.175054  .800000
 .317955  .100612  .858597
 .970097 2.438904 1.000000
 .664388 1.204048  .292670
-.870252 -.993857 -1.89018
1.962192  .587540 -.275352
1.036381 -.110834 -.246448
 .007415 -.069234 1.447422
1.634353  .965370  .467095
 .219813  .553268  .348095
-.285774  .358621  .166708
1.498758 -2.87971 -1.13757
1.671538 -.310708  .396034
1.462036  .057677 1.401522
-.563266  .904716 -.744522
 .297874  .561898 -.929709
-1.54898 -.898084 -.838295

görüntü tanımını buraya girin

Yaklaşık olarak pic (c) 'ye karşılık gelen veri ve analiz:

       y       x1       x2
1.644540 1.063845  .351188
1.785204 -1.20315  .200000
-1.36357 -.466514 -.961069
 .314549 1.175054  .800000
 .317955 -.100612  .858597
 .970097 1.438904 1.000000
 .664388 1.204048  .292670
-.870252 -.993857 -1.89018
1.962192 -.587540 -.275352
1.036381 -.110834 -.246448
 .007415 -.069234 1.447422
1.634353  .965370  .467095
 .219813  .553268  .348095
-.285774  .358621  .166708
1.498758 -2.87971 -1.13757
1.671538 -.810708  .396034
1.462036 -.057677 1.401522
-.563266  .904716 -.744522
 .297874  .561898 -.929709
-1.54898 -1.26108 -.838295

görüntü tanımını buraya girin

X1Y-0,224X20,4190,538


Teşekkürler! Hala biraz sezgisel hissediyor, ama en azından resimlerin mümkün olduğunu gösteriyor :)
JelenaČuklina

5

Önceki cevaba katılıyorum, ancak daha fazla ayrıntı vererek katkıda bulunabileceğimi umuyorum.

XYxy

Y=bir+βx+u

nerede ρ^yx=β^σ^x/σ^y

Y

Y=bir+βx+Σjαjzj+u

βzjρρxy|zzj


ρρ
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.