Neden Judea Pearl'ün Kitabı: Neden istatistiklere dayanıyor?


79

Judea Pearl'ün Neden Kitabı'nı okuyorum ve derimin altına giriyor 1 . Özellikle, bana istatistiklerin nedensel ilişkileri hiçbir zaman, asla nedensel ilişkileri araştıramadığını, nedensel ilişkilerle hiç ilgilenmediğini ve bu istatistiklerin “bir model haline gelmediğini” söyleyerek tartışmaya açık bir şekilde “klasik” istatistiklere dayandığını söylüyor. veri toplama işletmesi ". İstatistikler kitabında çirkin bir kelime oluyor.

Örneğin:

İstatistikçiler, hangi değişkenlerin kontrol edilmesi gerektiği ve kontrol edilmemesi gerektiği konusunda oldukça karıştı, bu nedenle varsayılan uygulama, ölçebilecekleri her şeyi kontrol etmek oldu. [...] İzlenmesi kolay, basit bir prosedürdür, ancak hem israf hem de hatalarla doludur. Nedensel Devrim'in kilit bir başarısı, bu karışıklığa bir son vermek olmuştur.

Aynı zamanda, istatistikçiler nedensellik hakkında hiç konuşamayanlar anlamında kontrol etmeyi büyük ölçüde taahhüt ederler [...]

Ancak, nedensel modeller sonsuza dek istatistikte olmuştur. Bir regresyon modeli, demek olabilir biz aslında olduğundan, aslında bir nedensel modeli kullanılabilir varsayarak bir değişken nedenidir ve başka etkisidir ki (dolayısıyla korelasyon regresyon modellemesi farklı bir yaklaşımdır) ve bu nedensel bir ilişki gözlendi desenleri açıklıyor olmadığını test .

Başka bir alıntı:

Özellikle istatistikçilerin bu bulmacayı [Monty Hall problemi] anlamalarının zor olduğunu düşünmemesine şaşmamalı. RA Fisher'ın (1922) belirttiği gibi “verilerin azaltılması” ve veri üretme sürecini görmezden gelmeye alıştılar.

Bu bana Andrew Gelman'ın Bayesanlar ve sıkça yazılmışlar hakkında ünlü xkcd karikatürüne yazdığı yanıtı hatırlatıyor : “Yine de, bütün bir bütün olarak karikatürün, sığ ders kitaplarının tavsiyelerini kör bir şekilde takip eden sıkça bir istatistikçi ile mantıklı bir Bayesyen'i karşılaştırması haksızlık. ."

Judea Pearls kitabında var olan s-kelimesinin yanlış beyanı, nedensel çıkarımın (şimdiye kadar bilimsel bir hipotezi 2 düzenlemenin ve test etmenin yararlı ve ilginç bir yolu olarak algıladığım ) şüpheli olup olmadığını merak etmemi sağladı .

Sorular: Judea Pearl'ün istatistikleri yanlış temsil ettiğini düşünüyorsunuz ve evet ise neden? Nedensel çıkarımın olduğundan daha büyük bir ses çıkarmak için mi? Nedensel çıkarımın, tüm düşüncemizi gerçekten değiştiren büyük bir R'ye sahip bir Devrim olduğunu düşünüyor musunuz?

Düzenle:

Yukarıdaki sorular benim asıl sorunum, ama kuşkusuz tartışıldıkları için, lütfen bu somut sorulara cevap verin (1) "Nedensellik Devrimi" nin anlamı nedir? (2) "Ortodoks" istatistiklerinden farkı nedir?

1. Ayrıca çünkü o böyle mütevazı bir adam.
2. Bilimsel anlamda istatistiksel anlamda değil.

EDIT : Andrew Gelman bu blog gönderisini Judea Pearls kitabına yazdı ve bence bu kitapla ilgili sorunlarımı benden çok daha iyi anlatan bir iş yaptı. İşte iki tırnak:

Kitabın 66. sayfasında, Pearl ve Mackenzie, istatistiklerin “örnek bir veri azaltma kuruluşu haline geldiğini” yazıyor. Hey! Sen neden bahsediyorsun?? Ben bir istatistikçiyim, 30 yıldır istatistik yapıyorum, politikadan toksikolojiye kadar farklı alanlarda çalışıyorum. “Model-kör veri azaltma”? Bu sadece saçmalık. Modelleri her zaman kullanıyoruz.

Ve bir tane daha:

Bak. Çoğulcu ikilemini biliyorum. Bir yandan, Pearl yöntemlerinin daha önce gelen her şeyden daha iyi olduğuna inanıyor. İnce. Onun için ve diğerleri için, nedensel çıkarımı incelemek için en iyi araçlardır. Aynı zamanda, çoğulcu veya bilimsel tarih öğrencisiyken, kek pişirmenin birçok yolu olduğunu biliyoruz. Gerçekten sizin için çalışmadığınız yaklaşımlara saygı göstermek zor ve bir noktada bunu yapmanın tek yolu geri adım atmak ve gerçek insanların bu yöntemleri gerçek sorunları çözmek için kullandıklarını anlamak. Örneğin, p-değerleri kullanarak karar vermenin çok sayıda bilimsel felakete yol açan korkunç ve mantıksal açıdan anlamsız bir fikir olduğunu düşünüyorum; Aynı zamanda, birçok bilim adamı p-değerlerini öğrenme aracı olarak kullanmayı başarır. Bunu tanıdım. Benzer şekilde, Pearl'ün istatistiklerin, hiyerarşik regresyon modellemesinin, etkileşimlerin, poststratifikasyonun, makine öğreniminin vb. Aparatların nedensel çıkarımdaki gerçek sorunları çözdüğünü fark etmesini öneririm. Pearl'ünki gibi yöntemlerimiz de karışabilir - GIGO! Ve belki de Pearl'ün yaklaşımına geçmek için hepimizin daha iyi olacağı hakkı. Ama yaptığımız şey hakkında yanlış açıklamalar yaptığında, bunun yardımcı olacağını sanmıyorum.


41
Doğrusal regresyon nedensel bir model değildir. Basit doğrusal regresyon ikili korelasyonla aynıdır , tek fark standardizasyondur . Bu nedenle, regresyonun nedensel olduğunu söylerseniz, aynı şey korelasyon için de geçerli olmalıdır. Korelasyon nedensellik midir? Herhangi bir rasgele değişken arasında ne olursa olsun, saçma bir ilişki olduğunu tahmin etmek için regresyon kullanabilirsiniz (tesadüfen birçok "anlamlı" sonuç).
Tim

8
İstatistikte nedensellik hakkındaki akıl yürütme yaklaşımının Pearl, Rubin, Heckman ve diğerleri arasında en fazla hak ettiği anlaşmazlıklar, endişelenmiş görünüyor ve Pearl'ün tonunun daha da sıkılaştığını düşünüyorum. Bunun size sunduğu gerçek içgörüden sizi rahatsız etmesine izin vermeyin. Daha önceki kitabını okuyun Nedensellik, derinin altına daha az inecek.
CloseToC

7
@CloseToC I (bkz burada, yani mantıksal olarak eşdeğer çerçeveler İnci, Rubin ve Heckman hepsi aynı çerçevede çalışan bir bakıma olduklarını eklersiniz stats.stackexchange.com/questions/249767/... onların anlaşmazlıklar farklı olan bu nedenle,) "Doğrusal regresyon nedensel bir modeldir" gibi şeyleri tartışmaktan bir seviye.
Carlos Cinelli

9
Kitabın kendimi rahatsız ettim. Orada bazı basit yanlış istatistiksel iddialar var (şu an alıntı yapamıyorum, kenar boşluklarında notlarım olan kitap evdeydi), sadece Pearl'ün kitabı yazmasına yardım eden gazetecinin mi yoksa Pearl'ün de kendisinin kötü bir istatistikçi olup olmadığını merak etmemi sağladı. (Söylemeye gerek yok, böyle saygın bir bilim adamının yaptığı işte bu kadar açık hatalar keşfettiğimde çok şaşırdım.) Hiç kimse Pearl'ü alçakgönüllülükle suçlayamasa da, makaleleri çok daha iyi ...
Richard Hardy

15
Bu konunun zaten bir araya gelip gelmediğine dair bazı endişelerim var: (a) çok akıllı bir kişiden (b) akıllı kişinin kişiliğini ve tartışma tarzını (c) belirli bir bakış açısının doğru, abartılı veya neyse.
Nick Cox,

Yanıtlar:


59

Pearl'ün tonunun kibirli olduğuna ve "istatistikçiler" in karakteristiğinin basit ve yekpare olduğuna tamamen katılıyorum. Ayrıca, yazısını özellikle net bulmuyorum.

Ancak, bir noktaya sahip olduğunu düşünüyorum.

Nedensel akıl yürütme örgün eğitimimin bir parçası değildi (Yüksek Lisans): Konuya en yakın olanı deneysel tasarımda seçmeli bir dersti, yani herhangi bir nedensellik iddiası çevreyi fiziksel olarak kontrol etmemi istedi. Pearl'ün Nedensellik kitabı bu fikrin reddedilmesine karşı ilk maruz kalmamdı. Açıkçası, tüm istatistikçiler ve müfredatlar için konuşamıyorum, ancak kendi bakış açımdan, Pearl'ün nedensel muhakeme istatistiklerinde bir öncelik olmadığı yönündeki gözlemine katılıyorum.

İstatistikçilerin bazen kesinlikle gerekenden daha fazla değişkenleri kontrol ettiği doğrudur, ancak bu nadiren hataya neden olur (en azından benim deneyimime göre).

Bu aynı zamanda 2010 yılında istatistik alanında yüksek lisans derecesiyle mezun olduktan sonra tuttuğum bir inanç.

Ancak, çok yanlış. Ortak bir efekti kontrol ettiğinizde (kitapta "çarpıştırıcı" olarak adlandırılır), seçim yanlılığı oluşturabilirsiniz. Bu gerçekleştirme benim için oldukça şaşırtıcıydı ve beni nedensel hipotezlerimi grafik olarak göstermenin yararı konusunda gerçekten ikna etti.

EDIT: Seçim önyargısı üzerinde durmam istendi. Bu konu oldukça incedir, nedensel diyagramlar üzerinde edX MOOC 'un perusing edilmesini şiddetle tavsiye ederim , seçim yanlılığına adanmış bir bölümü olan grafiklere çok güzel bir giriş.

Bir oyuncak örneği için, kitapta belirtilen bu makaleyi parolalamak için: A = çekicilik, B = güzellik, C = yeterlilik değişkenlerini göz önünde bulundurun. B ve C'nin genel popülasyonda nedensel olarak ilişkisiz olduğunu varsayalım (yani, güzellik yetkinliğe neden olmaz, yetkinlik güzelliğe neden olmaz ve güzellik ve yetkinliğin ortak bir nedeni paylaşmaz). Ayrıca, B veya C'den birinin çekici olmak için yeterli olduğunu, yani A'nın bir çarpıştırıcı olduğunu varsayalım. A'da şartlanma, B ve C arasında sahte bir ilişki oluşturur.

Daha ciddi bir örnek, hamilelik sırasında bir annenin sigara içmesinin (S), bebeğin kilosunun (U) olması durumunda, bebeğin ölüm oranını (M) azalttığı göz önüne alındığında "doğum ağırlığı paradoksudur". Önerilen açıklama, doğum kusurlarının (D) aynı zamanda düşük doğum ağırlığına neden olduğu ve ayrıca ölüm oranına katkıda bulunduğudur. Karşılık gelen nedensel diyagram {S -> U, D -> U, U -> M, S -> M, D -> M} olup, içinde U bir çarpıştırıcıdır; üzerinde koşullanma sahte birliği tanıtır. Bunun arkasındaki sezgi, eğer anne sigara içiyorsa, düşük doğum ağırlığının bir kusurdan kaynaklanma olasılığının düşük olması.


8
+1. Seçim yanlılığını nasıl ortaya koyduğunu biraz daha açıklayabilir misiniz? Belki küçük bir somut örnek çoğu okuyucu için netlik kazanacaktır.
amip

2
Düzenleme için teşekkürler. Bunlar çok açık örnekler.
amip

Yani, Sigara İçenlerin Bebeklerinin Düşük Doğum Ağırlığı Sezgisi doğru mu?
Malady

@Malandy: Bu model verilerle uyumlu ve sezgisel bir anlam ifade ediyor. Doğru olup olmadığını bilmiyorum.
mitchus


71

Senin derdin, Pearl'ün söylediklerini yansıtıyor!

basit bir doğrusal regresyon esasen nedensel bir modeldir

Y,X,ZE[YX]E[XY]E[YX,Z]E[ZY,X]

Öte yandan doğrusal bir yapısal denklem nedensel bir modeldir. Ancak ilk adım, istatistiksel varsayımlar (gözlenen ortak olasılık dağılımındaki kısıtlamalar) ve nedensel varsayımlar (nedensel model üzerindeki kısıtlamalar) arasındaki farkı anlamaktır.

Judea Pearl'ün istatistikleri yanlış tanıttığını düşünüyorsunuz ve evet ise neden?

Hayır, sanmıyorum, çünkü bu yanlış anlamaları her gün görüyoruz. Elbette, Pearl bazı genellemeler yapıyor, çünkü bazı istatistikçiler nedensel çıkarımla çalışıyorlar (Don Rubin, potansiyel sonuçların tanıtımında öncüydü ... ben de istatistikçiyim!). Ancak, geleneksel istatistik eğitiminin büyük bir kısmının nedensel etkinin ne olduğunu resmi olarak tanımlamak için bile nedensellikten kaçtığını söylemek doğru .

YXE[Y|X] E[Yx]E[Y|do(x)]

Kitaptan getirdiğin alıntı aynı zamanda harika bir örnek. Geleneksel istatistik kitaplarında, bir kimsenin ne olduğunun doğru bir tanımını veya gözlemsel çalışmalarda bir ortak değişken için ne zaman uyum sağlamanız (veya ne zaman yapmamanız gerektiği) konusunda rehberlik bulamazsınız. Genel olarak, “ortak değişken tedavi ve sonuçla ilgiliyse, buna göre ayarlamanız gerekir” gibi “korelasyon kriterleri” görürsünüz. Bu kargaşanın en dikkat çekici örneklerinden biri Simpson's Paradox'ta ortaya çıkıyor - iki zıt işaret tahminiyle karşılaştığınızda, hangisini kullanmalısınız, düzeltilmiş veya ayarlanmamış? Cevap elbette nedensel modele bağlıdır.

Ve bu sorunun sona erdiğini söylediğinde Pearl ne anlama geliyor? Regresyon yoluyla basit ayar yapılması durumunda, arka kapı kriterine atıfta bulunur (burada daha fazlasını görün) . Ve genel olarak tanımlamak için --- basit ayarlamanın ötesinde --- şu anda herhangi bir yarı markovya DAG'ı için nedensel etkilerin tanımlanması için tam algoritmalarımız olduğu anlamına geliyor .

Burada bir başka açıklama yapmaya değer. Deneysel çalışmalarda bile - geleneksel istatistiklerin denemelerin tasarımında kesinlikle çok önemli çalışmalar yaptığı yerlerde! - günün sonunda nedensel bir modele ihtiyacınız var . Deneyler uyumsuzluktan, takip kaybından, seçim yanlılığından ... ayrıca, çoğu kez deneylerinizin sonuçlarını analiz ettiğiniz belirli bir popülasyonla sınırlandırmak istemezseniz, genelleştirmek istediğinizi daha geniş / farklı bir popülasyona yönelik deneysel sonuçlar. Burada, yine, şunu sorabilir: Neyi ayarlamalısınız? Verileriniz ve temel bilgileriniz bu ekstrapolasyona izin verecek kadar yeterli mi? Bunların hepsi nedensel kavramlardır, dolayısıyla nedensel varsayımları resmi olarak ifade etmek ve istediğinizi yapmanıza izin verecek kadar yeterli olup olmadıklarını kontrol etmek için bir dile ihtiyacınız vardır!

Özetle, bu kavram yanılgıları istatistik ve ekonometride yaygındır, burada Çapraz Doğrulama'da aşağıdaki gibi birkaç örnek vardır:

Ve daha fazlası.

Nedensel çıkarımın, tüm düşüncemizi gerçekten değiştiren büyük bir R'ye sahip bir Devrim olduğunu düşünüyor musunuz?

Birçok bilimdeki mevcut durumu, ne kadar gelişmiş olduğumuzu ve ne kadar hızlı değiştiğimizi ve ne kadarını hala yapabildiğimizi göz önüne alarak bunun gerçekten bir devrim olduğunu söyleyebilirim.

PS : İnci bu tartışmaya ilgi olacaktır UCLA nedensellik blogunda yaptığı mesajların ikisini sen mesajları bulabilirsiniz önerdi burada ve burada .

PS 2 : Ocak ayında yeni düzenlemesinde belirttiği gibi, Andrew Gelman'ınblogunda yeni bir yazı var . Gelman’ın blogundaki tartışmaya ek olarak, Pearl ayrıca Twitter’da da cevap verdi:

Gelman'ın #Bookofwhy'yi incelemesi ilgi çekici olmalı, çünkü istatistik araştırmacılarının geniş çevrelerini felç eden bir tutum sergiliyor. İlk tepkim şu andan gönderilirse https://t.co/mRyDcgQtEc İlgili mesajlar:https://t.co/xUwR6eCGrZ vehttps://t.co/qwqV3oyGUy

- Judea Pearl (@yudapearl) 9 Ocak 2019


4
Teşekkür ederim. Fakat - basitçe yazarken, E [X | Y] 'nin yanı sıra E [Y | X]' i de hesaplayabilirim, ancak bir DAG içine X ← Y ve X → Y yazabilirim. Öyle ya da böyle, ben gereken bilimsel bir hipotez veya bir model ile başlar. Hipotezim, modelim - seçimim. Ben çok gerçeği olabilir bunu yapmak gerektiği anlamına gelmez bir şey yapmak, bunu yapar.
Ocak

3
@ Ocak demek istediğin anlamına gelmiyor, buradaki amaç sadece tahmin etmek istediğini doğru bir şekilde ifade edebilmek (nedensel tahmin), nedensel varsayımlarını doğru bir şekilde dile getirebilmektir (nedensel ve istatistiksel varsayımların ayrımını netleştirerek). Bu nedensel varsayımların mantıklı sonuçları ve nedensel varsayımlarınızın + verilerinin sorgunuzu yanıtlamak için yeterli olup olmadığını anlayabilmeniz.
Carlos Cinelli

3
XY

4
Bence öyle: Ortalama istatistikçinizin, kontrollü deneylerden nedensel çıkarımda iyi bir şekilde dizilmiş olmasına rağmen, kesinlikle nedensellik ile korelasyonu karıştırmama ihtimaline rağmen, gözlemsel nedensel çıkarımda nedensel çıkarım konusunda biraz sarsıntılı olabileceğini söylemek kesinlikle haksızlık gibi görünmüyor. veri. Son teklifin bağlamı olarak kabul ediyorum (kitabı okumamıştım) ve bu yazının bazı okuyucularının almayacağı bir şey.
Scortchi

5
"Değişkenlere göre uyarlandığında" Kısacası @January gelmez ille o değişkenlerden nedensel etki tahminlerinde önyargı ortadan kaldırmıştır anlamına gelir.
Alexis

31

Judea'nın yazılarının hayranıyım ve Nedensellik (aşk) ve Niçin Kitabı'nı (gibi) okudum.

Judea'nın istatistiklere dayandığını sanmıyorum. Eleştiriyi duymak zor. Fakat eleştirisi olmayan herhangi bir kişi veya alan hakkında ne söyleyebiliriz? Onlar büyüklükten gönül rahatlığına meyillidirler. Sormalısınız: Eleştiri doğru mu, gerekli mu, faydalı mı ve alternatif mi öneriyor? Tüm bunların cevabı empatik bir "Evet" dir.

1

Gerekli? Medya, belli başlı risklerin sağlığa etkileri hakkındaki çelişkili ifadelerle doludur. Veri analiziyle tutarsızlık, bizi yararlı politikalardan, sağlık prosedürlerinden ve daha iyi yaşam için önerilerden yoksun bırakan kanıtlar durdu.

İşe yarar? Judea'nın yorumu duraklama sağlayacak kadar kesin ve belirgindir. Herhangi bir istatistikçi veya veri uzmanının karşılaşabileceği herhangi bir veri analizi ile doğrudan ilgilidir.

Alternatifler teklif ediyor mu? Evet, Judea aslında gelişmiş istatistiksel yöntemlerin olasılığını ve hatta bilinen istatistiksel çerçevelere (Yapısal Eşitlik Modellemesi gibi) ve regresyon modelleriyle olan bağlantılarını nasıl azalttığını tartışıyor. Her şey, modelleme yaklaşımını yönlendiren içerik bilgisinin açık bir ifadesini gerektirmekle sonuçlanır.

Judea basitçe tüm istatistiksel metodları (örn. Regresyon) kötüye kullandığımızı öne sürmüyor. Aksine, modelleri haklı çıkarmak için bazı nedensel teoriyi benimsememiz gerektiğini söylüyor.

1


3
Güzel cevap Bir istatistikçi olmamak, ancak istatistiklerle biyoloji arasında uzun yıllar boyunca bir arayüz olarak hizmet etmenin, benim için istatistikçilere yönelik herhangi bir eleştiriyi duymanın gerçekten zor olmadığını unutmayın ;-) Ancak, "ortodoks istatistiklerin" nedensellikle baş edemeyeceğini düşünüyor musunuz? Pearl'ün açıkça belirttiği gibi hiç?
Ocak

4
@ Ocak au contraire . İstatistikçilerin, analizlerinde nedensel çıkarımı kabul etmedeki eksikliklerinin, sıkça çıkarımı anlamadaki eksiklikleri ile doğrudan ilişkili olduğunu düşünüyorum. Bu, eksik olan karşıt mantıktır.
AdamO

4
1 " 'ayar 'yararlı 'ilgili' 'önemli' veya diğer anlamsız' yaklaşımı onlar olarak DD seçilerek sunuluyor çünkü değişkenleri seçerek içerir' (aslında aralarında belirli nedensel ilişkileri formel hipotezleri içeren olmadan a la DAG’lerin resmi kullanımı . Düzenleme eklendi. :)
Alexis

Yorumlar uzun tartışmalar için değildir; bu konuşma sohbete taşındı .
Scortchi

23

Bu kitabı okumadım, bu yüzden sadece verdiğin özel teklifi yargılayabilirim. Bununla birlikte, bu temelde bile, bunun istatistiksel mesleğe son derece haksız göründüğü konusunda sizinle aynı fikirdeyim. Aslında istatistikçilerin, istatistiksel dernekler (korelasyon vb.) İle nedensellik arasındaki ayrımı vurgulamak ve her ikisinin karışmasına karşı uyarmak için her zaman kayda değer derecede iyi bir iş çıkardıklarını düşünüyorum. Aslında, benim deneyimlerime göre istatistikçiler genellikle sebep ve korelasyon arasındaki her yerde görülen karmaşaya karşı mücadele eden başlıca profesyonel güç olmuştur . İstatistlerin “nedensellik hakkında hiç konuşamayan” olduğunu iddia etmek tamamen yanlış (ve neredeyse iftira niteliğindedir). Neden böyle kibirli saçmalıkları okuduğunu sinirlenmiş olduğunu anlayabiliyorum.

İstatistikçi olmayanlar için oldukça yaygın olduğunu söyleyebilirim.İstatistiki birliktelik ile nedensellik arasındaki ilişkiyi zayıf anlamak için istatistiksel modelleri kullananlar. Bazıları diğer alanlardan iyi bir bilimsel eğitime sahiptir, bu durumda konunun da farkında olabilirler, ancak kesinlikle bu konuları kavrayan istatistiksel modelleri kullanan bazı insanlar var. Bu, uygulayıcıların istatistik konusunda temel bir eğitime sahip olduğu, ancak derin bir seviyede öğrenemediği birçok uygulamalı bilimsel alanda geçerlidir. Bu durumlarda, genellikle diğer araştırmacıları bu kavramlar ve onların uygun ilişkileri arasındaki ayrımlardan haberdar eden profesyonel istatistikçilerdir. İstatistikçiler genellikle RKÇ'lerin ve nedenselliği izole etmek için kullanılan kontrolleri içeren diğer deneylerin anahtar tasarımcılarıdır. Genellikle randomizasyon, plasebo gibi protokolleri açıklamaya çağırılırlar. ve potansiyel karıştırıcı değişkenlerle ilişkileri kesmeye çalışmak için kullanılan diğer protokoller. İstatistikçilerin bazen kesinlikle gerekenden daha fazla değişkenleri kontrol ettiği doğrudur, ancak bu nadiren hataya neden olur (en azından benim deneyimime göre). Bence çoğu istatistikçi arasındaki farkın farkındakarıştırıcı değişkenler ve çarpıştırıcı değişkenleri onlar çıkarımlar nedensel amacıyla regresyon analizi yaparken ve her zaman mükemmel modellerini oluşturmak olmasalar bile, onlar nasılsa nedensellik dikkate eschew düşüncesi basitçe saçma.

Judea Pearl'ün nedensellik konusundaki çalışmaları ile istatistiklere çok değerli bir katkı yaptığını düşünüyorum ve bu harika katkı için ona minnettarım. Nedensel ilişkilerin izole edilmesine yardımcı olan bazı yararlı formaliteleri kurdu ve inceledi ve çalışmaları iyi bir istatistiksel eğitimin temelini oluşturdu. Onun nedensellik kitabını okudumBen çok iyi bir öğrenciyken, rafımda ve diğer birçok istatistikçinin raflarında. Bu formalizmin çoğu, istatistikçiler tarafından sezgisel olarak bilinen şeyleri, cebirsel bir sisteme biçimlendirilmelerinden beri yankı verir, ancak her durumda çok değerlidir ve açık olanın ötesine geçer. (Gelecekte, aksiyomatik düzeyde gerçekleşen olasılık cebiriyle "yapılacak" işleminin birleştiğini göreceğimizi düşünüyorum ve bu muhtemelen olasılık teorisinin çekirdeği haline gelmeyi çok isterdi. O halde nedensel modeller ve olasılık önlemleri hakkında bilgi edindiğinizde "yap" işlemi hakkında bilgi edinirsiniz.)

Burada akılda tutulması gereken son bir şey, uygulamanın hedefin öngörücü olduğu, uygulayıcının nedensellikten aşağı çıkmaya çalışmadığı birçok istatistik uygulaması olduğudur. Bu tür uygulamalar istatistiklerinde son derece yaygındır ve bu tür durumlarda, önemli olan değil nedensel ilişkilere kendini kısıtlamak için. Bu, finans, İK, işgücü modellemesi ve diğer birçok alandaki istatistik uygulamalarında geçerlidir. Kişi değişkenleri kontrol edemediği ya da aramayacağı bağlamların miktarını küçümsememelidir.


Güncelleme: Cevabımın Carlos tarafından verilen cevaplara uymadığını fark ettim . Belki de "düzenli bir eğitime sahip bir istatistikçi / ekonometriyacı" nı neyin oluşturduğu konusunda hemfikiriz. Bir “istatistikçi” olarak adlandıracağım herkes genellikle en az lisans düzeyinde bir eğitime ve genellikle de önemli mesleki eğitim / deneyime sahip. (Örneğin, Avustralya’da, ulusal meslek kuruluşumuzla "Akredite Edici İstatistikçi" olma şartı, onur derecesi sonrasında en az dört yıllık bir deneyim veya düzenli lisans derecesinden sonra altı yıllık deneyim gerektirir.) Her durumda bir öğrenci istatistik çalışmak istatistikçi değildir .

İstatistikçilerin nedensellik anlayışı eksikliğinin iddia edildiğinin kanıtı olarak, Carlos'un cevabının CV.SE'de regresyondaki nedensellik hakkında soru soran birkaç soruya işaret ettiğini fark ettim. Bu davaların her birinde, soru açıkça acemi (istatistikçi olmayan) bir kişi tarafından sorulur ve Carlos ve diğerlerinin (doğru açıklamayı yansıtan) verdiği cevaplar oldukça fazla cevaplanır. Nitekim, bazı davalarda Carlos nedensellik hakkında ayrıntılı bir açıklama yapmıştır ve cevapları en çok oy alanlardır. Bu kesinlikle istatistikçilerin nedenselliği anladığını kanıtlıyor .

Diğer bazı posterler nedensellik analizinin genellikle istatistik müfredatına dahil edilmediğine dikkat çekmiştir. Bu doğru ve bu çok büyük bir utanç, ancak çoğu profesyonel istatistikçi yeni mezun değiller ve standart bir yüksek lisans programına dahil olanın ötesinde bir şeyler öğrendiler. Yine, bu açıdan, istatistikçilerin ortalama bilgi düzeyini diğer posterlerden daha fazla görüyorum.


12
İstatistik alanındaki resmi eğitimi aynı alandaki istatistikçiler tarafından yapıldığı bir istatistikçiyim ve istatistikçilere istatistik uygulayanları öğretir ve araştırırım. Sizi temin ederim ki (örn.) Korelasyonun nedensellik olmadığı ilkesi, alanımda tekrar eden bir mantradır. Gerçekten de, yağış ve buğday verimi arasındaki korelasyonun, bunlar ve bunun altındaki süreçler arasındaki ilişki hakkında söylenmesi gereken şey olmadığını göremeyen insanlarla karşılaşmıyorum. Genelde, benim deneyimlerime göre istatistikçi olmayanlar da bunu uzun zamandır düşünüyorlardı.
Nick Cox,

8
Bir epidemiyolog olarak, bu mantranın giderek daha fazla sinirlenmeye başladım. @NickCox'un dediği gibi, bu bilim adamı olmayanların bile anladığı bir şey. Sorun şu ki, herkes "korelasyon nedensellik anlamına gelmez!" Ne zaman gözlemsel bir çalışma (bir vaka kontrol çalışması, diyelim) yayınlanırsa. Evet, korelasyon nedensellik anlamına gelmez, ancak araştırmacılar genellikle bunun farkındadır ve bir çalışmayı nedensel yorumlamanın en azından makul olduğu şekilde tasarlayıp analiz etmek için her şeyi yaparlar.
COOLSerdash

5
@Nick Cox: Bunu daha iyi anlayan birçok istatistikçi olmadığını söyleyebilirim. Niyetim başka mesleklere dağılmaya niyetim değildi - sadece konunun istatistikçiler tarafından çok iyi anlaşıldığını vurgulamak .
Ben,

7
@NickCox Pearl'ün nedensellik konusundaki katkılarından "korelasyon nedensellik değildir" den çok daha fazla şey var. Burada Carlos ile birlikteyim. Nedensellik hakkında bütün bir kurs olması gerektiğini öğrenecek kadar var. Bildiğim kadarıyla, çoğu istatistik departmanı böyle bir kurs sunmuyor.
Neil G

12
@Ben: Pearl, istatistikçileri kafa karıştırıcı korelasyon ve nedensellik ile suçlamıyor. Onları çoğunlukla nedensel akıl yürütmekten uzak durmakla suçluyor. Tonunun kibirli olduğu konusunda hemfikirim ama sanırım bir noktası var.
mitchus

11

basit bir doğrusal regresyon esasen nedensel bir modeldir

İşte size doğrusal bir regresyon modelinin nedensel olamadığı bir örnek verdim. Diyelim ki önsel bir uyuşturucu zamanda 0 (en çekildiği t = 0 ) ve bu onu kalp krizinden hızına etkisi yoktur t = 1 . Kalp krizinden t = 1 de kalp krizi etkileyen = 2 t (yani önceki hasar zarar görmeye daha yatkın kalp sağlar). T = 3'te hayatta kalmak sadece insanların t = 2'de kalp krizi geçirip geçirmemesine bağlıdır - t = 1'de kalp krizi gerçekçi bir şekilde t = 3'te hayatta kalmayı etkiler , ancak bunun için bir okumuz olmaz basitlik.

İşte efsane:

DAG efsanesi

İşte gerçek nedensel grafik: çarpıştırıcı önyargı

En biz de o kalp krizi bilmiyorum farz edelim 1 = t bile ilaçları alarak bağımsız t = 0 yüzden de kalp krizi üzerinde ilacın etkisini tahmin etmek için basit doğrusal regresyon modeli oluşturmak t = 0 . Burada yordayıcımız İlaç t = 0 olur ve sonuç değişkenimiz Kalp Krizi t = 1 olur . Elimizdeki tek veri t = 3'te hayatta kalan insanlar , bu yüzden regresyonumuzu bu veriler üzerinde yürüteceğiz.

İşte T = 0 katsayısı için% 95 Bayesian güvenilir aralığı : % 95 güvenilir aralık, çarpıştırıcı önyargısı

Görebildiğimiz olasılıkların çoğu 0'dan büyük, bu yüzden bir etkisi var gibi görünüyor! Ancak, 0 etkisinin olduğunu önceden biliyoruz . Judea Pearl ve diğerleri tarafından geliştirilen nedensellik matematiği, bu örnekte önyargılı olacağını görmeyi çok kolaylaştırıyor (bir çarpıştırıcının soyundan gelen şartlandırma nedeniyle). Judea'nın çalışması, bu durumda, önyargılı yolları kaldıracak olan tüm veri setini kullanmamız gerektiğini (yani yalnızca hayatta kalan kişilere bakmayın) anlamına gelir:

önyargı yok

İşte tam veri setine bakarken% 95 Güvenilir Aralık (örneğin hayatta kalanların şartlandırılması değil).

% 95 güvenilir aralık, önyargı yok.

Yoğun bir şekilde 0'da ortalanmıştır, bu da aslında hiçbir ilişki olmadığını gösterir.

Gerçek hayattaki örneklerde, işler o kadar basit olmayabilir. Sistematik yanlılığa (kafa karıştırıcı, seçim yanlılığı vb.) Neden olabilecek daha birçok değişken olabilir. Analizlerde neyin ayarlanması gerektiğine göre Pearl tarafından matematik yapıldı; algoritmalar, hangi değişkenlerin ayarlanacağını önerebilir veya hatta ayarlamanın sistematik önyargıları ortadan kaldırmak için yeterli olmadığı zaman söyleyebilir. Yerleştirilen bu biçimsel teori ile, neyin ayarlanması ve neyin ayarlanmaması gerektiğini tartışarak çok fazla zaman harcamak zorunda değiliz; Sonuçlarımızın sağlam olup olmadığına dair sonuçlara hızla ulaşabiliriz. Deneylerimizi daha iyi tasarlayabilir, gözlem verilerini daha kolay analiz edebiliriz.

İşte Nedensel DAG'lerin Miguel Hernàn'dan çevrimiçi olarak ücretsiz olarak kullanabileceği bir kurs . Profesörlerin / bilim adamlarının / istatistikçilerin eldeki soru hakkında karşıt sonuçlara vardığı birçok gerçek hayattan örnek olay incelemesi vardır. Bazıları paradokslar gibi görünebilir. Bununla birlikte, Judea Pearl'ün ayrılması ve arka kapı kriteri aracılığıyla bunları kolayca çözebilirsiniz .

Başvuru için, veri oluşturma işlemine ilişkin kod ve yukarıda gösterilen güvenilir aralıklar için kod:

import numpy as np
import pandas as pd
import statsmodels as sm
import pymc3 as pm
from sklearn.linear_model import LinearRegression

%matplotlib inline

# notice that taking the drug is independent of heart attack at time 1.
# heart_attack_time_1 doesn't "listen" to take_drug_t_0
take_drug_t_0 = np.random.binomial(n=1, p=0.7, size=10000)
heart_attack_time_1 = np.random.binomial(n=1, p=0.4, size=10000)

proba_heart_attack_time_2 = []

# heart_attack_time_1 increases the probability of heart_attack_time_2. Let's say
# it's because it weakens the heart and makes it more susceptible to further
# injuries
# 
# Yet, take_drug_t_0 decreases the probability of heart attacks happening at
# time 2
for drug_t_0, heart_attack_t_1 in zip(take_drug_t_0, heart_attack_time_1):
    if drug_t_0 == 0 and heart_attack_t_1 == 0:
        proba_heart_attack_time_2.append(0.1)
    elif drug_t_0 == 1 and heart_attack_t_1 == 0:
        proba_heart_attack_time_2.append(0.1)
    elif drug_t_0 == 0 and heart_attack_t_1 == 1:
        proba_heart_attack_time_2.append(0.5)
    elif drug_t_0 == 1 and heart_attack_t_1 == 1:
        proba_heart_attack_time_2.append(0.05)

heart_attack_time_2 = np.random.binomial(
    n=2, p=proba_heart_attack_time_2, size=10000
)

# people who've had a heart attack at time 2 are more likely to die by time 3

proba_survive_t_3 = []
for heart_attack_t_2 in heart_attack_time_2:
    if heart_attack_t_2 == 0:
        proba_survive_t_3.append(0.95)
    else:
        proba_survive_t_3.append(0.6)

survive_t_3 = np.random.binomial(
    n=1, p=proba_survive_t_3, size=10000
)

df = pd.DataFrame(
    {
        'survive_t_3': survive_t_3,
        'take_drug_t_0': take_drug_t_0,
        'heart_attack_time_1': heart_attack_time_1,
        'heart_attack_time_2': heart_attack_time_2
    }
)

# we only have access to data of the people who survived
survive_t_3_data = df[
    df['survive_t_3'] == 1
]

survive_t_3_X = survive_t_3_data[['take_drug_t_0']]

lr = LinearRegression()
lr.fit(survive_t_3_X, survive_t_3_data['heart_attack_time_1'])
lr.coef_

with pm.Model() as collider_bias_model_normal:
    alpha = pm.Normal(name='alpha', mu=0, sd=1)
    take_drug_t_0 = pm.Normal(name='take_drug_t_0', mu=0, sd=1)
    summation = alpha + take_drug_t_0 * survive_t_3_data['take_drug_t_0']
    sigma = pm.Exponential('sigma', lam=1)           

    pm.Normal(
        name='observed', 
        mu=summation,
        sd=sigma,
        observed=survive_t_3_data['heart_attack_time_1']
    )

    collider_bias_normal_trace = pm.sample(2000, tune=1000)

pm.plot_posterior(collider_bias_normal_trace['take_drug_t_0'])

with pm.Model() as no_collider_bias_model_normal:
    alpha = pm.Normal(name='alpha', mu=0, sd=1)
    take_drug_t_0 = pm.Normal(name='take_drug_t_0', mu=0, sd=1)
    summation = alpha + take_drug_t_0 * df['take_drug_t_0']
    sigma = pm.Exponential('sigma', lam=1)           

    pm.Normal(
        name='observed', 
        mu=summation,
        sd=sigma,
        observed=df['heart_attack_time_1']
    )

    no_collider_bias_normal_trace = pm.sample(2000, tune=2000)

pm.plot_posterior(no_collider_bias_normal_trace['take_drug_t_0'])

4

İkincisi bir klasik olan iki yazı, Judea'nın konularına ve bu konuya daha fazla ışık tuttu (sanırım). Bu, SEM'i (korelasyon ve regresyon olan) tekrar tekrar kullanan ve eleştirilerine uymayan birinden geliyor:

https://www.sciencedirect.com/science/article/pii/S0022103111001466

http://psycnet.apa.org/record/1973-20037-001

Temelde, bildiriler, korelasyonel modellerin (regresyon) neden herhangi bir güçlü nedensel çıkarımı ima ettiği gibi normal olarak alınamadığını açıklamaktadır. Herhangi bir dernek modeli belirli bir kovaryans matrisine uyabilir (yani, yön belirtiminin ve değişkenler arasındaki ilişkinin belirtilmemesi). Bu nedenle deneysel tasarım, karşı taraf önermeleri, vb. Gibi şeyler için ihtiyaç duyulur.


1

“... temelde bir değişkenin neden, diğeri etki olduğunu varsaydığımız için (bu nedenle korelasyon regresyon modellemesinden farklı bir yaklaşımdır)…”

Regresyon modellemesi kesinlikle bu varsayımı yapmaz.

“... ve bu nedensel ilişkinin gözlemlenen kalıpları açıklayıp açıklamadığını test etmek.”

Nedensellik varsayıyorsanız ve bunu gözlemlere göre onaylıyorsanız, SEM modellemesi yapıyorsunuzdur veya Pearl'ün SCM modellemesi olarak adlandırdığı şey. İstatistik alan adının bu bölümünü aramak isteyip istemediğiniz tartışmalıdır. Fakat bence çoğu, buna klasik istatistikler demez.

Genel olarak istatistiklere atılmaktansa, Pearl'ün istatistikçilerin nedensel anlambilim konusundaki çekingenliğini eleştirdiğini düşünüyorum. Carl Sagan'ın “gir ve çık” fenomeni olarak adlandırdığı şeyden dolayı bunu ciddi bir sorun olarak görüyor, burada artan libido ile güçlü bir şekilde ilişkili olan “et tüketimi” diyen bir çalışmayı bırakıyorsunuz ve sonra bilerek yaylanıyor Tamamıyla iki sonuç, halkın akılda nedensel olarak bağlantılı olacak.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.