Çoklu regresyon eş değişkenleri gerçekten ne kadar iyi kontrol edebilir?


45

Hepimiz alışılmadık bir X belirleyicisi ile bir sonuç arasında nedensel bir bağlantı kurmaya çalışan gözlemsel çalışmalara aşinayız, bir çoklu regresyon modelinde akla gelebilecek her potansiyel karıştıcıyı dahil ederek. Böylece tüm kafa karıştırıcıları “kontrol” edersek, argüman gider, çıkar tahmincisinin etkisini izole ederiz.

İstatistik derslerimin çeşitli profesörleri tarafından yapılan açık sözlere dayanarak, bu fikirle ilgili artan bir rahatsızlık geliştiriyorum. Birkaç ana kategoriye ayrılırlar:

1. Sadece düşündüğünüz ve ölçtüğünüz değişkenleri kontrol edebilirsiniz.
Bu açık, ama aslında hepsinin en zararlı ve aşılamaz olup olmadığını merak ediyorum.

2. Yaklaşım geçmişte çirkin hatalara neden oldu.

Örneğin, Petitti ve Freedman (2005), on yıllara dayanan istatistiksel olarak düzeltilmiş gözlemsel çalışmaların, hormon replasman tedavisinin kalp hastalığı riski üzerindeki etkisi konusunda feci derecede yanlış sonuçlara vardığını tartışmaktadır. Daha sonra RKÇ'ler neredeyse ters etkiler buldular.

3. Tahmini sonuç ilişkisi, eş değişkenleri kontrol ettiğinizde garip davranabilir.

Yu-Kang Tu, Gunnell ve Gilthorpe (2008) , Lord'un Paradoksu, Simpson'un Paradoksu ve baskılayıcı değişkenleri de dahil olmak üzere bazı tezahürleri tartışır.

4. Tek bir modelin (çoklu regresyon) değişkenler için uygun şekilde ayarlanması ve eş zamanlı olarak öngörücü-sonuç ilişkisini modellemesi zordur.

Bunu, eğilim puanları ve kafa karıştırıcıları katmanlaşma gibi yöntemlerin üstünlüğünün bir nedeni olarak verdiğimi duydum, ama gerçekten anladığımdan emin değilim.

5. ANCOVA modeli, ortak değişkenlerin ve ilgilenenlerin bağımsız olmasını gerektirir.

Elbette, belirsizliklere tam anlamıyla uyarlıyoruz, çünkü ilgi belirleyicisi ile ilişkilendirildiklerinden, modelin en çok istediğimiz anda kesin olarak başarısız olacağı anlaşılıyor. Argüman, düzenlemenin sadece randomize çalışmalarda gürültü azaltma için uygun olduğunu söyler. Miller & Chapman, 2001 , harika bir inceleme verir.

Yani benim sorularım:

  1. Bu sorunlar ve bilmediğim diğerleri ne kadar ciddi?
  2. Her şeyi kontrol eden bir çalışma gördüğümde ne kadar korkmalıyım?

(Umarım bu soru tartışma alanına fazla girmez ve onu geliştirmek için herhangi bir öneriyi memnuniyetle davet eder.)

EDIT : Yeni bir referans bulduktan sonra 5. maddeyi ekledim.


1
2. soru için, 'her şey için kontrollerin' şartnamenin daha genel bir sorun olduğunu düşünüyorum. Parametrik bir modelin doğru tanımlandığı bir durumu düşünmekte zorlanıyorum. Söylendiği gibi, bir model gerçeği basitleştirir ve bu tür bir çalışma sanatının yattığı yer burasıdır. Araştırmacı, modelde neyin önemli olup olmadığına karar vermek zorundadır.
kirk

4
Bu soru ile beni hayranı yaptın.
rolando2

1
Bunun çok iyi noktalar ortaya çıkardığını düşünüyorum; ancak cevapların kesinlikle istatistiksel alanın dışında olduğunu düşünüyorum. Bu nedenle, istatistiksel sonuç, 1) 2 çoğaltılır varsa) daha değerlidir Aynı zamanda, bakınız, vb önemli ölçüde uygulanabilir mi MAGIC kriterleri ve Abelson yapan genel değişken.
Peter Flom - Eski Monica

1
# 5 numaralı nokta kesinlikle yanlıştır. Miller ve Chapman gazetesi tamamen yanlıştır, tam durur.
Jake Westfall

1
@ yarım geçiş Kağıdın merkezi iddiasından başka ne söyleneceğinden emin değilsiniz - yani odak belirleyicisi X ve değişken C'nin ilişkisiz olması gerektiğinden - doğru değil. ANCOVA'nın sadece bir regresyon modeli olduğuna dikkat edin, bu nedenle bu aynı mantık çizgisi, çoklu regresyonun neredeyse tüm gerçek kullanımlarını görünüşte geçersiz kılar! Birkaç ay önce bu korkunç makale hakkında Twitter'da bir tartışma yaptım: twitter.com/CookieSci/status/902298218494644228
Jake Westfall

Yanıtlar:


4

Muhtemelen kabul görmüş, istatistiksel olmayan, belki de bir cevap verme var - buna eş değişkenler için gerçekten kontrol altında olduğunu iddia etmek için hangi varsayımlara ihtiyaç vardır?

Bu Judea Pearl'ün nedensel grafikleriyle yapılabilir ve matematiksel olarak yapılabilir .

Web sitesinde http://ftp.cs.ucla.edu/pub/stat_ser/r402.pdf ve diğer materyallere bakınız .

Şimdi istatistikçiler olarak tüm modellerin yanlış olduğunu biliyoruz ve asıl istatistiksel soru, cevabımızın yaklaşık olarak tamam olması için çok yanlış olmadığı varsayılan varsayımlardır. Pearl bunun farkında ve çalışmalarında tartışıyor, ancak birçok istatistikçinin bir cevap verme iddiasıyla (hangi varsayımların yapılması gerektiğine inandığına inanıyorum ? ) Yanıtını titretmekten kaçınmak için açıkça ve sıklıkla yeterli değil .

(Şu anda ASA istatistiksel kurslarda bu yöntemleri dahil etmek malzeme öğretimi için bir ödül sunuyor burada bkz )


Zarif bir grafik gösterime büyük referans, teşekkür ederim.
yarım pas

0

1. soruya cevap:

  • Ciddiyetin büyüklüğü en iyi bağlamsal olarak değerlendirilir (yani geçerliliğe katkıda bulunan tüm faktörleri göz önünde bulundurmalıdır).
  • Ciddiyetin büyüklüğü kategorik bir şekilde değerlendirilmemelidir. Bir örnek, çalışma tasarımları için bir çıkarım hiyerarşisi kavramıdır (örneğin vaka raporları en düşük ve RKÇ'ler kategorik olarak en yüksektir). Bu tür bir program, tıp fakültelerinde yüksek kalitede kanıtları hızlı bir şekilde tanımlamak için kolay bir sezgisel olarak öğretilir. Bu tür bir düşünce ile ilgili sorun, algoritmik ve gerçekte aşırı deterministik olmasıdır, cevabın kendisi kesin olarak belirlenir. Bu olduğunda, kötü tasarlanmış RCT'lerin iyi tasarlanmış bir gözlem çalışmasından daha kötü sonuçlar verebileceği yolları kaçırabilirsiniz.
  • Bir epidemiyolog açısından yukarıdaki hususların tam bir tartışması için okunması kolay bu makaleye bakın (Rothman, 2014) .

2. soruya cevap:

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.