Simpson Paradoksu, gizli bir değişkenin tüm tersine çevirme örneklerini kapsıyor mu?


10

Aşağıda, Simpson paradoksunun varlığına dair 'resimle kanıt' olarak sunulan birçok görselleştirme ve muhtemelen terminoloji ile ilgili bir soru yer almaktadır.

Simpson Paradoksu, nümerik örnekleri tanımlamak ve vermek için oldukça basit bir olgudur (bunun olmasının nedeni derin ve ilginçtir). Paradoks, marjinal ilişkinin her koşullu ilişkiden farklı bir yöne sahip olduğu 2x2x2 olasılık tablolarının (Agresti, Kategorik Veri Analizi) mevcut olmasıdır.

Yani, iki alt popülasyondaki oranların karşılaştırılması her iki yönde de olabilir, ancak birleştirilmiş popülasyondaki karşılaştırma diğer yöne gider. Sembollerde:

Orada mevcut , öyle ki , bir + ba,b,c,d,e,f,g,h

a+bc+d>e+fg+h

ama ve

ac<eg

bd<fh

Bu, aşağıdaki görselleştirmede doğru bir şekilde temsil edilir ( Wikipedia'dan ):

vektörlerde simpson paradoksu

Bir fraksiyon basitçe karşılık gelen vektörlerin eğimidir ve örnekte daha kısa B vektörlerinin karşılık gelen L vektörlerinden daha büyük bir eğime sahip olduğunu görmek kolaydır, ancak birleştirilmiş B vektörü birleşik L vektöründen daha küçük eğime sahiptir.

Birçok formda, özellikle Simpson'ın bu wikipedia referansının önünde çok yaygın bir görselleştirme var:

alt gruplarda ters eğimler

Bu, karıştırmanın harika bir örneğidir, gizli bir değişkenin (iki alt popülasyonu ayıran) nasıl farklı bir desen gösterebileceği.

Bununla birlikte, matematiksel olarak, böyle bir görüntü, hiçbir şekilde Simpson'ın paradoksu olarak bilinen fenomenin temelinde olan beklenmedik durum tablolarının görüntülenmesine karşılık gelmez . Birincisi, regresyon çizgileri, bir beklenmedik durum tablosundaki verileri saymaz, gerçek değerli nokta seti verilerinin üzerindedir.

Ayrıca, regresyon çizgilerindeki eğimlerin keyfi ilişkisi olan veri kümeleri oluşturulabilir, ancak beklenmedik durum tablolarında, eğimlerin ne kadar farklı olabileceği konusunda bir kısıtlama vardır. Yani, bir popülasyonun regresyon çizgisi , verilen alt popülasyonların tüm regresyonlarına dik olabilir . Ancak Simpson'ın Paradoksunda, alt popülasyonların oranları, bir regresyon eğimi olmasa da, diğer yönde olsa bile, birleştirilmiş popülasyondan çok fazla uzaklaşamaz (tekrar, Wikipedia'dan oran karşılaştırma görüntüsüne bakın).

Benim için, bu ikinci görüntüyü Simpson paradoksunun bir görselleştirmesi olarak her gördüğümde şaşırtılmak yeterli. Ama her yerde (yanlış dediğim) örnekleri gördüğüm için, merak ediyorum:

  • Acil durum tablolarının orijinal Simpson / Yule örneklerinden, regresyon çizgisi görselleştirmesini haklı çıkaran gerçek değerlere ince bir dönüşümü kaçırıyor muyum?
  • Kesinlikle Simpson's karıştırıcı hatanın özel bir örneğidir. 'Simpson'ın Paradoksu' terimi şimdi karıştırıcı bir hatayla eşitlendi mi , böylece matematik ne olursa olsun, gizli bir değişken aracılığıyla yönündeki herhangi bir değişiklik Simpson'ın Paradoksu olarak adlandırılabilir mi?

Zeyilname: 2xmxn (veya sürekli olarak 2 m) tabloya genelleme örneği: mesafeye göre yapılan sepet yüzdesi, gizli değişken atış tipidir

Eğer atış türü üzerinde bir araya getirilmişse, savunmacılar yaklaştıkça bir oyuncu daha fazla atış yapar gibi görünüyor. Atış tipine göre gruplanmış (sepetten gerçekten mesafe), daha sezgisel olarak beklenen durum meydana gelir, daha fazla atış yapılması savunucuların uzaklaşmasıdır.

Bu görüntü, Simpson'ın daha sürekli bir duruma (savunucuların mesafesi) genelleştirilmesi olarak düşündüğüm şeydir. Ama hala regresyon çizgisi örneğinin Simpson'ın bir örneği olduğunu henüz göremiyorum.


5
Simpson Paradoksu sadece kategorik hedef veriler için geçerli değildir. Son grafiğinizde olduğu gibi, onu etkileyen kategorik bir faktöre sahip sürekli hedef veriler paradoksa tabi olabilir. Kilit nokta, "değişken faktör", ilgilenilen değişkenin kategorik olup olmadığı veya ilgi değişkenini etkileyen diğer faktörlerin herhangi biri veya tümü kategorik olup olmadığıdır.
jbowman

@jbowman Tamam, SP'nin kategorik verilerin ötesinde sürekli olarak genelleştirilebildiğini görebiliyorum (genellemeyi görmedim; SP her zaman beklenmedik tablolarla sunuluyor gibi görünüyor), ancak ikinci grafiğin nasıl karşılık geldiğini görmüyorum. Demek istediğim, açık ama belirsiz bir metafor olan "gizli bir değişken yön değiştirebilir", ama genellemenin matematiksel / tam olarak nasıl çalıştığını görmüyorum.
Mitch

1
"Gerçek" verilerin iki renkli çizgiyi izlemesine neden olan gizli bir kategorik faktörünüz var, ancak bilgi olmadan veriler noktalı çizgiyi takip ediyor gibi görünüyor. Kategorilere göre değil, kazaları hedefiniz ve x ekseni değişkenleriniz olarak yaşa göre değerlendirmeyi düşünün. Yaşıyla birlikte aşağı gibi görünüyorlar, değil mi? Şimdi "sarhoşken araba kullanmak" ın "gizli faktörünü" ekleyin. Mavi çizgi "sarhoş iken araba kullanmak", kırmızı "sarhoş değil iken araba" olacaktır. Gençlerle ilişkilendirilen gizli faktör göz önüne alındığında, kazalar yaşla birlikte artmaktadır! (En gerçekçi örnek değil, itiraf etmeliyim, ama önemli olan bir fikir ...)
jbowman

@jbowman Bu sadece SP yerine kafa karıştırıcı hatanın bir açıklaması gibi geliyor. Belki de SP ile karıştırmanın aynı olduğunu söylüyorsunuz. Ama bu bir cevap yönünde geliyor; belki biraz daha resmileştirebilir ve SP ile bağlantıyı daha açık hale getirebilirsiniz (regresyon çizgilerinin bir şekilde beklenmedik durum tablosundaki oran karşılaştırmaları gibi matematiksel olarak hesaplayın).
Mitch

1
xp

Yanıtlar:


8

Paradoks, marjinal ilişkinin her koşullu ilişkilendirmeden farklı bir yöne sahip olduğu 2x2x2 olasılık tablolarının (Agresti, Kategorik Veri Analizi) mevcut olmasıdır [...] Orijinal Simpson / Yule durum tablolarının örneklerinden regresyon çizgisi görselleştirmesini haklı çıkaran gerçek değerler?

Asıl mesele, paradoksu paradoksun kendisi olarak göstermenin basit bir yolunu eşitlemenizdir. Beklenmedik durum tablosunun basit bir örneği kendiliğinden paradoks değildir. Simpson paradoksu, marjinal ve koşullu ilişkileri karşılaştırırken, çoğunlukla işaret tersine (veya Simpson'ın kendisi tarafından verilen ve işaretin tersine dönmediği orijinal örnekte olduğu gibi bağımsızlık gibi aşırı zayıflamalara) bağlı olarak çakışan nedensel sezgilerle ilgilidir . Paradoks, her iki tahmini de nedensel olarak yorumladığınızda ortaya çıkar ve bu da farklı sonuçlara yol açabilir - tedavi hastaya yardımcı olur mu veya zarar verir mi? Ve hangi tahmini kullanmalısınız?

E(Y|X)X>0E(Y|X,C=c)X<0,c

Elbette Simpson's karıştırıcı hatanın özel bir örneğidir.

Bu yanlış! Simpson paradoksu, karıştırıcı hatanın özel bir örneği değildir - eğer sadece bu olsaydı, hiç paradoks olmazdı. Sonuçta, bazı ilişkilerin karıştırıldığından eminseniz, beklenmedik durum tablolarında veya regresyon katsayılarında işaret dönüşlerini veya zayıflamaları görmekten şaşırmazsınız - belki de bunu beklersiniz.

Simpson paradoksu, marjinal ve koşullu ilişkilendirmeleri karşılaştırırken "etkiler" in tersine çevrilmesi (veya aşırı zayıflama) anlamına gelse de, bu karışıklıktan ve marjinal veya koşullu tablonun "doğru olup olmadığını bilemeyeceğiniz bir önselden kaynaklanmıyor olabilir. "bir nedensel sorgunuzu yanıtlamak için danışmak. Bunu yapmak için, sorunun nedensel yapısı hakkında daha fazla bilgi sahibi olmanız gerekir.

Pearl'de verilen bu örnekleri düşünün : resim açıklamasını buraya girin

XYZZZZZ

Pearl'ün bunun neden bir "paradoks" olarak kabul edildiğine ve neden hala insanları şaşırttığına dair açıklaması çok makul. Örneğin (a) 'da tasvir edilen basit durumu ele alalım: nedensel etkiler bu şekilde tersine çevrilemez. Bu nedenle, yanlışlıkla her iki tahminin nedensel (marjinal ve koşullu) olduğunu varsayarsak, böyle bir şey olduğunu görmekten şaşırabiliriz - ve insanların çoğu dernekte nedensellik görmek için kablolanmış gibi görünüyorlar .

Yani ana (başlık) sorunuza geri dönelim:

Simpson Paradoksu, gizli bir değişkenin tüm tersine çevirme örneklerini kapsıyor mu?

Bir anlamda, Simpson'ın paradoksunun mevcut tanımı budur. Ancak koşullandırma değişkeni gizli değil, aksi halde paradoksun gerçekleştiğini görmeyeceksiniz. Paradoksun şaşırtıcı kısmının çoğu nedensel değerlendirmelerden kaynaklanmaktadır ve bu "gizli" değişken mutlaka bir karışıklık değildir.

Bitişiklik tabloları ve regresyon

yxz

yx

a+bc+de+fg+h=cov(y,x)var(x)

zz=1

aceg=cov(y,x|z=1)var(x|z=1)

z=0

bdfh=cov(y,x|z=0)var(x|z=0)

Dolayısıyla, regresyon açısından paradoks, ilk katsayının tahmin edilmesine karşılık gelir.(cov(y,x)var(x))(cov(y,x|z)var(x|z))(cov(y,x)var(x))


1
Sizin görüşünüze göre, Simpson'ın paradoksu sadece marjinal ve koşullu ilişkilendirmelerde bir farklılık olasılığını değil, aynı zamanda verileri yorumlarken hangisinin "doğru" olduğu konusunda karışıklık anlamına da geliyor? Ve Pearl, nedensel yapının buna karar vermek için kullanmamız gerektiğini gösteriyor?
Paul

2
"Simpson paradoksu, marjinal ve koşullu ilişkileri karşılaştırırken çelişkili sezgilerle ilgilidir." Burada katılmıyorum, Simpson'ın paradoksu, ham ve tabakalı sonuçları karşılaştırırken özellikle bir işaret çevirme anlamına geliyor.
AdamO

2
@AdamO, çoğu insan aşırı işaret tersine çevirmeyi Simpson paradoksunun "katı" tanımı olarak kullanırken, Simpson'ın orijinal örneğinde aslında işaret tersine dönüş yoktu.
Carlos Cinelli

1
@Paul bu kesinlikle doğru.
Carlos Cinelli

2
@AdamO Bence Pearl'ün bunun neden "paradoks" olarak kabul edildiğine ve neden hala insanları şaşırttığına dair açıklaması akla yatkın. Örneğin (a) basit durumunda, nedensel etkiler basitçe bu şekilde tersine çevrilemez. Bu nedenle, her iki durum için de nedensel olarak düşünürsek, böyle bir şeyin gerçekleştiğini gördüğümüzde şaşıracağız - ve insanların çoğu dernekte nedensellik görmek için kablolanmış gibi görünüyor.
Carlos Cinelli

2

Acil durum tablolarının orijinal Simpson / Yule örneklerinden, regresyon çizgisi görselleştirmesini haklı çıkaran gerçek değerlere ince bir dönüşümü kaçırıyor muyum?

Evet. Kategorik analizlerin benzer bir temsili, Y ekseni üzerindeki yanıtın log-olasılıklarını görselleştirerek mümkündür. Simpson paradoksu, sonucun stratum referans log-oranlarına göre mesafeli olarak ağırlıklandırılmış stratuma özgü eğilimlere karşı çalışan bir "kaba" çizgi ile aynı şekilde görünür.

İşte Berkeley kabul verileri ile bir örnek

resim açıklamasını buraya girin

Burada cinsiyet bir erkek / kadın kodudur, X ekseni üzerinde erkeklere göre ham kabul log oranlarıdır, ağır kesikli siyah çizgi cinsiyet tercihini gösterir: pozitif eğim erkek kabullerine karşı bir önyargı önerir. Renkler belirli departmanlara kabulü temsil eder. İki vaka dışında hepsinde, bölüme özgü cinsiyet tercihi çizgisinin eğimi negatiftir. Bu sonuçların, etkileşimi hesaba katmayan bir lojistik modelde birlikte ortalaması alınırsa, genel etki, kadınların kabulünü destekleyen bir tersine çevrmedir. Daha sert bölümlere erkeklerden daha sık başvurdular.

Elbette Simpson's karıştırıcı hatanın özel bir örneğidir. 'Simpson'ın Paradoksu' terimi şimdi kafa karıştırıcı bir hata ile eşleşti mi, böylece matematik ne olursa olsun, gizli bir değişken aracılığıyla yönündeki herhangi bir değişiklik Simpson'ın Paradoksu olarak adlandırılabilir mi?

Kısaca hayır. Simpson paradoksu sadece "ne" iken karıştırmak "neden" tir. Baskın tartışma, kabul ettikleri yere odaklandı. Karışıklık, tahminler üzerinde minimal veya ihmal edilebilir bir etkiye sahip olabilir ve alternatif olarak Simpson'ın paradoksu, dramatik olsa da, çelişkili olmayanlardan kaynaklanabilir. Not olarak, "gizli" veya "gizlenen" değişken terimleri kesin değildir. Bir epidemiyolog perspektifinden, dikkatli kontrol ve çalışma tasarımı, kafa karıştırıcı önyargılara olası katkıda bulunanların ölçümünü veya kontrolünü sağlamalıdır. Sorun olmak için "gizli" olmaları gerekmez.

Nokta tahminlerinin, karışıklıktan kaynaklanmayan tersine dönme noktasına kadar büyük ölçüde değişebileceği zamanlar vardır. Çarpıştırıcılar ve arabulucular da değişiklik efektleridir, muhtemelen onları tersine çevirirler. Nedensel akıl yürütme, etkileri incelemek için, temel etkinin, tabakalandırılmış tahminin yanlış olması nedeniyle bunları ayarlamak yerine tek başına incelenmesi gerektiği konusunda uyarır. (Yanlış bir şekilde, doktoru görmek sizi hasta ettiğinden ya da silahların insanları öldürdüğünden, insanların insanları öldürmediğinden yanlış çıkarım yapmaya benzer).


Yani, Simpson'ın orijinal örneğinin "Simpson'ın paradoksu" örneği olmadığını söyleyebilir misiniz?
Carlos Cinelli

@CarlosCinelli hangi örneğe atıfta bulunursunuz? Simpson'ın 1951 belgesine erişimim yok, ancak JRSS'de yayınlanmış ve özette uygulamalı bir örneğe atıfta bulunulmadığı takdirde, tamamen teorik bir çalışma gibi görünüyor.
AdamO

Paragraf 9 ve 10'daki sayısal örnek olup, iki farklı nedensel yoruma yol açacak iki farklı hikayeyle aynı olasılık tablolarını verir. Bu örnekte ters kayıt yoktur, sadece marjinal bağımsızlık vardır.
Carlos Cinelli

2
İşaretin tersine çevrilmesinin burada neden önemli olmadığını görmek için, bir tedavinin hem erkekler hem de kadınlar için son derece güçlü bir ilişki gösterdiği, ancak genel olarak popülasyonda sadece küçük bir ilişki gösterdiği bir durumu hayal edin. Nedensel olarak yorumlanırsa, bu hala çoğu insan için paradoksal olacaktır.
Carlos Cinelli

@CarlosCinelli Ben bunun şaşırtıcı bir örnek olduğunu söyleyebilirdim ama Simpson'un kendi paradoksu değil, ama konuyu işaretlemeyeceğim, bence iyi bir argüman yaptınız ve belki de neyin olduğu ve neyin olmadığı hakkında yanlış varsayımlarda bulunduğumu düşünüyorum Simpson Paradoksunun zor olgusu.
AdamO
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.