Beklenmedik tablolar yerine Simpson'un paradoksunu denklemlerle açıklayabilir misiniz?


14

Muhtemelen Simpson paradoksu hakkında net bir fikrim yok . Gayri resmi olarak biliyorum ki, her bir A düzeyi (her grup) için Y1 ortalaması olsa bile, tüm olası A faktör seviyeleri üzerinde gruplanan Y1 yanıtı ortalaması, tüm A seviyeleri üzerindeki Y2 yanıtı ortalamasından daha yüksek olabilir. her zaman karşılık gelen Y2 ortalamasının altındadır. Örnekleri okudum, ancak her gördüğümde hala şaşırıyorum, belki de belirli örneklerle iyi öğrenemediğim için: Genelleştirmede sorunlar yaşıyorum. Formüllerdeki bir açıklamayı en iyi öğrenirim ve görmeyi tercih ederim. Tabloları saymak yerine denklemlere dayanan paradoksu açıklayabilir misiniz?

Ayrıca, sürprizimin sebebinin, genel olarak doğru olmayabilecek paradoksta yer alan ortalamalar hakkında bilinçsizce bazı varsayımlar yapabileceğimi düşünüyorum. Belki her gruptaki örnek sayısına göre ağırlık vermeyi unuturum? Ama sonra, her bir grup ortalamasını her gruptaki örnek sayısına göre ağırlıklandırırsam, toplam ortalama tahmininin daha doğru olduğunu gösteren bir denklem görmek istiyorum, çünkü (eğer doğruysa) bu açık değil genel olarak bana. Bunu için bir tahmini olduğunu düşünür bakılmaksızın, ağırlığı, daha fazla örnekleri olduğunda daha düşük bir standart hata vardır.E[Y1]


1
Burada simülasyonlarla ilgili bir yazım var . Simülasyon, Simpson'ın paradoksunu anlamanız için yardımcı olabilir
Haitao Du

İşte talep üzerine Simpson paradokslarını üreten bir makine!
kjetil b halvorsen

Yanıtlar:


11

Sayım verileri için Simpson'ın Paradoksunu cebirsel olarak anlamak için genel bir yaklaşım.

Bir pozlama için hayatta kalma verilerine sahip olduğumuzu ve 2x2 olasılık tablosu oluşturduğumuzu varsayalım. İşleri basit tutmak için her hücrede aynı sayılara sahip olacağız. Bunu rahatlatabiliriz, ama cebiri oldukça dağınık hale getirir.

DiedSurvivedDeath RateExposedXX0.5UnexposedXX0.5

Bu durumda, Ölüm Hızı, hem Maruz Kalma hem de Beklenmedik gruplar için aynıdır.

Şimdi, verileri kadınlar için bir gruba ve erkekler için başka bir gruba bölersek, aşağıdaki sayılarla 2 tablo elde ederiz:

Erkekler:

DiedSurvivedDeath RateExposedXaXbaa+bUnexposedXcXdcc+d

ve kadınlar için:

DiedSurvivedDeath RateExposedX(a1)X(b1)a1a+b2UnexposedX(c1)X(d1)c1c+d2

burada a,b,c,d[0,1] , birleştirilmiş veri tablosundaki erkeklerin her bir hücresinin oranlarıdır.

Simpson's Paradoksu maruz kalan erkekler için ölüm oranları maruz kalmamış erkekler için ölüm oranından daha büyük olduğunda VE maruz kalan kadınlar için ölüm oranı maruz bırakılmamış kadınlar için ölüm oranından daha büyük olduğunda ortaya çıkacaktır . Maruz erkeklerde ölüm oranları olduğunda Alternatif olarak, aynı zamanda meydana gelecek az maruz kalmamış erkek ölüm oranından daha VE olduğunu maruz kadınlarda ölüm oranı daha az maruz kalmamış kadınlarda ölüm oranından daha. Yani, ne zaman

(aa+b<cc+d) and (a1a+b2<c1c+d2)

Or 

(aa+b>cc+d) and (a1a+b2>c1c+d2)

Somut bir örnek olarak, X=100 ve a=0.5,b=0.8,c=0.9 . Sonra şu durumlarda Simpson paradoksuna sahip olacağız:

(0.50.8+0.9<0.90.9+d) and (0.510.5+0.82<0.910.9+d2)

(9<d<1.44) and (0.96<d<1.1)

(0.96,1]

2. eşitsizlik seti:

(0.50.8+0.9>0.90.9+d) and (0.510.5+0.82>0.910.9+d2)

(d<0.9 or d>1.44) and (0.96<d or d>1.44)

için çözümü olmayand[0,1]

a,b,cd0.99

0.5/(0.5+0.8)=38% in the exposed group
0.9/(0.9+0.99)=48% in the unexposed group

ve Kadınlar için:

(0.51)/(0.5+0.82)=71% in the exposed group
(0.91)/(0.9+0.992)=91% in the unexposed group

Dolayısıyla, erkekler maruz kalmayan grupta maruz kalan gruptan daha yüksek ölüm oranına sahiptir ve dişiler de maruz bırakılmamış grupta maruz kalan gruba göre daha yüksek ölüm oranına sahiptir, ancak toplanan verilerdeki ölüm oranları maruz kalan ve maruz bırakılmamış olanlar için aynıdır. .


16

xy

A grubundaki veriler, takılan regresyon hattının

y=11x

29xy

B grubundaki veriler, takılan regresyon hattının

y=25x

1114xy

x1

(2,9)(11,14)(149)/(112)=0.55xxy

rm(list=ls())
Xa <- c(1,2,3)
Ya <- c(10,9,8)
m0 <- lm(Ya~Xa)
plot(Xa,Ya, xlim=c(0,20), ylim=c(5,20), col="red")
abline(m0, col="red")

Xb <- c(10,11,12)
Yb <- c(15,14,13)
m1 <- lm(Yb~Xb)
points(Xb,Yb, col="blue")
abline(m1, col="blue")

X <- c(Xa,Xb)
Y <- c(Ya,Yb)
m2 <- lm(Y~X)
abline(m2, col="black")

resim açıklamasını buraya girin

Kırmızı noktalar ve regresyon çizgisi A grubu, mavi noktalar ve regresyon çizgisi B grubu ve siyah çizgi genel regresyon çizgisidir.


Merhaba, cevap için teşekkürler, ama bu yine de Simpson paradoksunun başka bir spesifik örneğidir. Özellikle bir teorem ya da denklemler dizisi, daha soyut ve genel bir yaklaşım şeklinde bir şey istedim. Her neyse, başka cevap olmadığından örneğinizi inceleyeceğim ve konsepti genelleştirmeme yardımcı olduğunu düşünüyorsanız cevabı kabul edeceğim.
DeltaIV

3
@DeltaIV Tamamen cebirsel argümanlar kullanarak yeni bir cevap yazdım.
Robert Long
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.