Simpson'ın paradoksunu anlama: Andrew Gelman'ın cinsiyet ve boy üzerindeki gelirini gerileme örneği

22

Son blog yazılarından Andrew Gelman diyor ki:

Simpsonların paradoksu için karşı tarafların ya da potansiyel sonuçların gerekli olduğunu düşünmüyorum. Bunu söylüyorum, çünkü biri manipüle edilemeyen veya manipülasyonların doğrudan ilgilenmediği değişkenlerle Simpson'un paradoksunu kurabilir.

Simpson'un paradoksu, daha fazla yordayıcı eklerseniz, regresyon coef'lerinin değiştiği daha genel bir sorunun bir parçasıdır, işaretin saygısızlığı gerçekten gerekli değildir.

İşte öğretmenliğimde her iki noktayı da gösteren bir örnek:

Cinsiyet ve boydan gelir öngören bir regresyon çalıştırabilirim. Cinsiyetin külfetinin 10,000 dolar olduğunu (yani aynı yükseklikte bir erkek ve kadını karşılaştırırken, ortalama olarak erkeğin 10,000 doları daha fazla kazanacağını ) ve yükseklik katsayısının 500 $ olduğunu (yani iki erkek veya iki kadını karşılaştırarak) buluyorum farklı yüksekliklerde, uzun boylu kişi ortalama olarak inç başına 500 dolar kazanacaktır ).

Bu sığırları nasıl yorumlayabilirim? Boy kedisinin yorumlanmasının kolay olduğunu hissediyorum (aynı cinsiyetten iki kişiyi farklı yüksekliklerle karşılaştırmayı hayal etmek kolaydır), aslında ham maddenin çoğu kadar cinsiyeti kontrol etmeden boyuna gerilemeyi bir şekilde "yanlış" olarak görüyordu. kısa ve uzun boylu insanlar arasındaki fark, kadın ve erkek arasındaki farklarla “açıklanabilir”. Fakat yukarıdaki modeldeki seks yapısının yorumlanması çok zor görünüyor: örneğin, hem 66 inç yüksekliğinde olan bir erkek ve bir kadını neden karşılaştırmalıyız? Uzun boylu bir kadınla kısa bir adamın karşılaştırılması olurdu. Tüm bu akıl yürütme belirsiz bir nedensel görünüyor ama potansiyel sonuçları kullanarak düşünmenin bir anlamı yok.

Bunun üzerinde durdum (ve hatta yayına yorum yaptım) ve burada daha net bir şekilde anlaşılması gereken bir şey olduğunu düşünüyorum.

Cinsiyetin yorumlanması kısmına kadar bu çok iyi. Ancak kısa bir erkek ve uzun boylu bir kadını karşılaştırmanın ardında ne sorun olduğunu görmüyorum. İşte benim açımdan: Aslında daha da mantıklı (erkeklerin ortalama olarak daha uzun olduğu varsayımı göz önüne alındığında). Bir 'kısa erkek' ve 'kısa' bir kadını tam olarak aynı nedenden ötürü karşılaştıramazsınız, gelirdeki farkın bir kısmı yüksekliklerdeki farkla açıklanır. Aynı durum, uzun boylu erkekler ve uzun boylu kadınlar için ve daha da ötesi, kısa kadınlar ve uzun boylu erkekler için (söz konusu olandan daha fazla söz konusu olan). Dolayısıyla, temel olarak yüksekliğin etkisi sadece kısa erkeklerle uzun boylu kadınların karşılaştırılması durumunda elimine edilir (ve bu cinsiyet katsayısının yorumlanmasına yardımcı olur). Popüler eşleştirme modellerinin arkasındaki benzer temel kavramları üzerinde bir zil çalmıyor mu?

Simpson'un paradoksunun ardındaki fikir, nüfus etkisinin, alt grup bilge etkilerinden farklı olabileceği yönündedir. Bu, bir anlamda, 2. noktasıyla ve yüksekliğinin tek başına kontrol edilmemesi gerektiğini (değişken önyargıyı ihmal ettiğimiz dediğimiz) kabul ettiği gerçeğiyle ilgili. Ancak bunu toplumsal cinsiyet katsayısı tartışmasına bağlayamadım.

Belki daha net ifade edebilirsin? Ya da benim anlayış hakkında yorum?

regression interaction simpsons-paradox

— Abhimanyu Arora
kaynak

Çapraz doğrulama, popülasyonun rastgele alt kümelerine bakar, asgari uyum ve en iyi genellemeye sahip olmaya çalışır.

— EngrStudent - Monica

1

Endişelerinizi doğru anlarsam, Lord'un paradoksuna bakmaktan da yararlanabileceğinizi düşünüyorum. @article {lord67, author = {Lord, FM}, title = {Grup karşılaştırmalarının yorumlanmasında bir paradoks}, dergi = {Psikolojik Bülten}, yıl = {1967}, hacim = {68}, sayfa = {304- -305}, anahtar kelimeler = {change score}} @article {lord69, author = {Lord, FM}, title = {Önceden varolan grupları karşılaştırırken istatistiksel düzenlemeler}, dergi = {Psikolojik Bülten}, yıl = {1969}, hacim = {72}, pages = {336--337}, anahtar kelimeler = {puanları değiştir}}

— mdewey

1

Judea Pearl son zamanlarda Simpson'un paradoksuna bir yazı daha koydu . Gelman'ın sunumuyla aynı fikirde olmadığından eminim. İlk olarak, ikinci nokta "paradoks" değil. Şartlandırmanın tersine çevrilmesi, şartlandırdığın şeyin bir sonucu olarak matematiksel bir gerçektir. Potansiyel olarak paradoksal kılan şey, her iki tahminin nedensel yorumunu yaptığınız zamandır. İkincisi, neden bu kısıtlanabilirliği sadece kısıtlanabilir?

— NRH,

9

Ben tamamen emin değilim senin sorunun, ancak iddialarını ve örnek modelinde senin karışıklık zerlikleri olabilir.

Bilimsel ilgi, yükseklik ayarlı cinsiyet-gelir birliği veya cinsiyete göre ayarlanmış yükseklik-gelir ilişkisine girip gelmediği konusunda Andrew açık değildir . Nedensel bir modelde, cinsiyet cinsiyete neden olur ancak boy cinsiyete neden olmaz . Bu nedenle, cinsiyetin etkisini istiyorsak, boyuna ayarlamak arabuluculuk önyargısına yol açacaktır (zengin insanlar daha uzun olduğu için muhtemelen çarpışma önyargısı da olabilir!). Ben uygulamalı araştırma görünce komik kafa karıştırıcı ve bulmak yorumlayıp diğerBir modele dahil edilen "ortak değişkenler" (kafa karıştırıcılar ve hassasiyet değişkenleri). Saçmalıktırlar, ancak gerekli olan karşılaştırmayı yapmak için yeterli katmanlamayı sağlarlar. Cinsiyete dayalı farklılıklara ilişkin çıkarım ile ilgileniyorsanız, yükseklik ayarlama, yapılacak yanlış şeydir.

Simpsonların paradoksunu açıklamak için karşı-fiillerin gerekli olmadığına katılıyorum. Onlar sadece verilere özgü bir özellik olabilirler. Hem ham hem de düzeltilmiş RR'lerin nedensel olmadan bir anlamda doğru olduğunu düşünüyorum. Tabii ki, hedef nedensel analiz olduğunda ve meselenin çöküşünün çökmezlik (bir OR'ı şişiren) ve yetersiz örneklem büyüklüğü problemleri ortaya çıkarması daha problemlidir.

Okuyucular için bir hatırlatma olarak: Simpson'un paradoksu, bir ilişkinin bir karıştırıcı değişkeni kontrol ettikten sonra yönünü çevirdiği bir örneği ifade eden çok özel bir olgudur . Berkeley Kabul verileri motive edici bir örnekti. Orada, ham RR'lerin kadınların Berkeley'e kabul edilme ihtimalinin daha düşük olduğunu gösterdi. Bununla birlikte, bir kez departmanlar tarafından sınıflandırılan RR'ler, kadınların her bir departmana kabul edilme ihtimalinin daha yüksek olduğunu gösterdi . Birçok insanı reddeden zor bölümlere başvuruda bulunmaları daha olasıydı.

Şimdi nedensel çıkarım teorisinde, birisinin cinsiyete sebep olduğu için başvurduğunu düşünmemize üzülürüz.. Cinsiyet gerçek değil mi? Evet, evet ve hayır. Miettenen, bu tür sorunlara "çalışma tabanı" yaklaşımı olduğunu savunuyor: nüfus kim? Tüm uygun öğrenciler değil, özellikle Berkeley'e başvuran öğrenciler. Daha rekabetçi bölümler, kadınları aksi takdirde başvurmayacakları zaman Berkeley'e başvurmaları için çekmiştir. Genişletmek için: son derece zeki bir kadın, en iyisini, yani mühendislik programına girmek istiyor. Eğer Berkeley harika bir mühendislik programına sahip olmasaydı, zaten Berkeley’e başvuru yapmazdı, MIT veya CalPoly’e de başvururdu. Bu nedenle, "uygulayan öğrenci" nüfusu ışığında, bölüm cinsiyete neden olur ve kafa karıştırıcıdır. (ihbarı: Ben birinci sınıf bir kolej öğrencisiyim, bu yüzden hangi programların neyle ünlü olduğu hakkında fazla bir şey bilmiyorum).

Peki bu verileri nasıl özetliyoruz? Berkeley'in bir kadından daha başvuran bir adamı kabul etmesinin daha muhtemel olduğu doğrudur . Berkeley'in bölümlerinin kadınları kabul etmekten daha çok erkekleri kabul etmekten daha muhtemel olduğu doğrudur . Ham ve tabakalı RR'ler nedensel olmasalar bile hassas önlemlerdir. Bu , istatistikçiler olarak ifadelerimizle hassas olmanın ne kadar önemli olduğunun altını çizer (alçak gönüllü yazar, uzaktan kesin olarak kesin olduğunu varsaymaz).

Şaşırtma, çökebilirlikten farklı, ihmal edilen değişken yanlılığın bir başka biçimi olan ancak tahminler üzerinde daha hafif etkiler yarattığı bilinen bir olgudur. Lojistik regresyon farklı olmayan collapsibilty yapar olmayan önyargı neden lineer regresyon ve göz önünde sürekli daha kapsamlı bir şekilde tarif edilmiş olmalıdır Gelman örneğindeki.

Andrew'un cinsiyet katsayısını cinsiyet / yükseklik ayarlı gelir modelinde yorumlaması, modelin varsayımlarının doğasını ortaya koymaktadır: doğrusallık varsayımı. Aslında, doğrusal modelde, kadınlar ve erkekler arasındaki bu tür karşılaştırmalar mümkün çünkü belirli bir kadın için tahmin edebiliriz.gözlenmemiş olsa bile, benzer bir boyda erkek ne kazanmış olabilir. Bu aynı zamanda eğer birinin etki değiştirmeye izin vermesi durumunda da geçerlidir, böylece kadındaki eğilimin eğimi erkeklerinkinden farklıdır. Öte yandan, aynı boydaki kadın ve erkekleri düşünmenin çok delice olduğunu sanmıyorum, 66 inç uzun boylu ve kısa boylu bir kadın olurdu. Brüt ekstrapolasyondan ziyade bana hafif bir projeksiyon gibi geliyor. Ayrıca, model varsayımları açık bir şekilde ifade edilebildiğinden, okurların cinsiyete göre sınıflandırılmış gelir-yükseklik birliğinin, aralarında alınan veya arasında ortalama alınan bilgiler taşıdığını anlamasına yardımcı olur.erkek ve kadın örnekleri. Eğer böyle bir dernek çıkarımın hedefi olsaydı, en ciddi istatistikçi açıkça etki değişikliği olasılığını göz önüne alırdı.

— Adamo
kaynak

2

Harika tartışma Bir istatistikçi olarak, insanlar bir çalışmanın sonuçları hakkında konuştuğunda beni rahatsız etmiyor, ancak marjinal mi yoksa şartlı etkilerden mi bahsettiğinden emin değiller.

— Cliff AB

1

"neden örneğin?, hem 66 inç boyunda olan bir erkek ve bir kadın karşılaştırmak Bu uzun bir kadınla kısa adamın bir karşılaştırma olurdu "

Model, gelirin cinsiyete ve yüksekliğe bağlı olduğunu varsayar. Bununla birlikte, yüksekliğin daha fazla gelir üretme şekli erkekler ve kadınlar için aynı olmayabilir. Kadınlar, bir erkeğin hala kısa sayılabileceği yükseklikte "yeterince" uzun olarak kabul edilebilir.

Modeli aşağıdaki şekilde basitleştirmek faydalı olabilir.

Büyük giyim perakendecileri mağazalarında mağaza asistanı olma olasılığını azaltmak istediğinizi varsayalım ve aşağıdaki tanımlama stratejisini göz önünde bulundurun.

İşverenlerin, "asgari" cinsiyete bağlı olduğu belirli bir asgari yüksekliğe sahip çalışanları işe alma ihtimalinin daha yüksek olduğunu gözlemlediniz.

Diyelim ki yüksekliği cm cinsinden ölçmek yerine, bir erkeğin ve bir kadının sırasıyla hangi boyda "uzun" olduğunu tanımlayan iki eşik değer bulunduğunu varsayalım:> erkekler için> = 180 cm ve kadınlar için> = 170 cm.

Eşik değerlerin gerçekte var olduğunu varsayarak (yani işverenler kadın ve 169 cm veya 171 cm yüksekliğinde gerçek bir fark yaratır) ve doğru olanlar olduklarını varsayarak, uzun / kısa erkek ve kadınları tanımlayan bir kukla oluşturabilirsiniz. Farklı yükseklikteki erkekler ve kadınlar hala kuklalarınızla aynı kategoriye girebilir ve aynı zamanda ölçtüğünüz o işgücü piyasasının gerçek dinamikleriyle tutarlıdır.

— Caserío
kaynak

-1

(Daha açık bir ifadeyle), erkeklerin kadınlardan daha fazla şansı olduğunu söyleyen tipik cinsiyet mücadelesinin paradoksal önyargılı olacağını söyler misiniz?

Belki bu bir nokta. Nasıl göründüğünü ve altında yatan sonuçları analiz etmeyecek şeyleri görmeye meyilliyiz.

Simpson'un paradoksunu aşmak için "bir kadına bir erkekle karşılaştırıldığında aynı miktarda tarafsız işi yapan daha ne kadar para kazandırır?" sorusuna cevap vermeliyiz. o zaman birileri hamile olmaları gerektiğini söyleyip çocuklarını daha fazla büyütmeleri gerektiğini söyleyebilirdi ki bu doğru olan ancak önemli olan, "kadınlar olduğu için kadınlar daha az fırsatlara sahipler" ve derin bir derdinin sadece ". Koşullu istatistiklere sahip analiz, özünde eşit fırsatların ortaya çıktığını ve cinsiyetle ilgili olmayan, cinsiyet konularıyla ilgili ayrımcılık yapan gibi görünen diğer faktörler olduğunu görmemize neden olacaktır.

— Javier Bañez
kaynak

Böyle bir analizin mutlaka nedensel veya açıklayıcı olmayabileceğini, fakat mevcut olguyu tanımlayıcı olabileceğini anlamak faydalı olabilir.

— AdamO