Çapraz doğrulama nedensel çıkarım için kullanılabilir mi?


37

Tüm bağlamlarda çapraz onaylamaya aşinayım, yalnızca öngörücü doğruluğu artırmak amacıyla kullanılır. Değişkenler arasındaki tarafsız ilişkilerin tahmininde çapraz doğrulama mantığı geliştirilebilir mi?

İken bu Richard Berk tarafından kağıt "nihai" regresyon modelinde parametre seçimi için numunenin dışarı beklemeye kullanımını gösterir (ve adım adım parametre seçimi iyi bir fikir değildir neden gösteriyor), hala nasıl tam olarak garanti görmüyorum X'in Y üzerindeki etkisine ilişkin tarafsız tahminler, konunun mantığına ve önceki bilgilerine dayanan bir model seçmekten daha fazla.

İnsanların nedensel çıkarımlara yardımcı olmak için bir örnek olarak kullandıkları örnekleri ya da anlamama yardımcı olabilecek genel makalelerden alıntı yapmalarını istiyorum. Ayrıca, çapraz onaylama anlayışımın saf olmadığından şüphem yok, eğer öyleyse. Bekletilen bir numunenin kullanılmasının nedensel çıkarım için uygun olacağı açıktır, ancak bunu yapan ya da bunu nasıl yapacaklarını bilemiyorum.

Berk Makalesinin Alıntı:

Model Seçiminden Sonra İstatistiksel Çıkarım : Richard Berk, Lawrence Brown, Linda Zhao Kantitatif Kriminoloji Dergisi, Vol. 26, No. 2. (1 Haziran 2010), sf. 217-236.

PDF versiyonu burada

Bu kloroferoksi tarafından küçük örneklem çalışmalarında keşif veri analizi soru bu soruyu istenir.

Yanıtlar:


19

Çapraz doğrulama hakkında bildiklerimizi gözden geçirmenin faydalı olduğunu düşünüyorum. CV etrafındaki istatistiksel sonuçlar iki sınıfa ayrılır: verimlilik ve tutarlılık.

Verimlilik, öngörülü modeller oluştururken genellikle endişe duyduğumuz şeydir. Buradaki düşünce, kayıp fonksiyonuyla ilgili asimptotik garantili bir model belirlemek için CV kullanmamızdır. Buradaki en ünlü sonuç, Stone 1977'den kaynaklanıyor ve LOO CV'nin AIC'ye asimptotik olarak eşdeğer olduğunu gösteriyor. Ancak, Brett, sizi nedensel mekanizma hakkında bilgilendirmeyen öngörücü bir model bulabileceğiniz iyi bir örnek sunar.

Tutarlılık, amacımız "gerçek" modeli bulmaksa, endişelendiğimiz şeydir. Buradaki fikir, asimptotik bir modeli belirlemek için CV'yi kullanmamızdır, model alanımızın gerçek modeli içermesi durumunda, onu yeterince büyük bir örnekle keşfedeceğimizi garanti eder. Buradaki en ünlü sonuç, doğrusal modellerle ilgili Shao 1993'ten kaynaklanıyor , ancak özetinde belirttiği gibi, “şok edici keşfi”, LOO sonucunun tam tersi. Doğrusal modeller için, , olduğu sürece LKO CV kullanarak tutarlılık elde edebilirsiniz . Doğrusal modellerin ötesinde, istatistiksel sonuçların elde edilmesi daha zordur. n k/n1n

Ancak tutarlılık kriterlerini karşılayabileceğinizi ve CV prosedürünüzün gerçek modele geldiğini varsayalım: . Nedensel mekanizma hakkında ne öğrendik? Basitçe biliyoruz ki ve arasında nedensel iddialar hakkında fazla bir şey söylemediği iyi bir ilişki olduğunu biliyoruz . Geleneksel bir bakış açısına göre, nedensel iddialarda bulunmak için kontrol / manipülasyon mekanizmasıyla deneysel tasarım getirmeniz gerekir. Judea Pearl'ün çerçevesinden, nedensel varsayımları yapısal bir model haline getirebilir ve bazı iddiaları türetmek için karşı-temelli hesapların olasılık temelli hesaplarını kullanabilirsiniz, ancak belirli özellikleri yerine getirmeniz gerekir . Y XY=βX+eYX

Belki de özgeçmişin gerçek modeli tanımlayarak (tutarlılık kriterlerini karşılamanız şartıyla!) Nedensel çıkarım konusunda yardımcı olabileceğini söyleyebilirsiniz. Ama sadece seni şimdiye kadar götürür; Özgeçmiş kendi başına, hiçbir çalışmayı nedensel çıkarım çerçevesinde yapmaz.

Çapraz onaylama ile söyleyebileceklerimizle daha fazla ilgileniyorsanız, Shao 1997'yi geniş çapta belirtilen 1993 makalesinde tavsiye ederim:

Başlıca sonuçları gözden geçirebilirsiniz, ancak aşağıdaki tartışmayı okumak ilginçtir. Rao ve Tibshirani'nin ve Stone'un yorumlarının özellikle anlayışlı olduğunu düşündüm. Ancak tutarlılığı tartışırken, nedensellik konusunda hiçbir iddiada bulunulmadığına dikkat edin.


Tüm referanslar, özellikle Judea Pearl cevapları için teşekkür ederim (Kitabı, bu kısa cevap yazımındaki tüm harika bilgilere dayanarak almam gerekecek.)
Andy W

1
Aşağı oy için yorumlarınız her zaman beklerim!
chl

18

Bu gerçekten ilginç bir soru ve belirli bir alıntı yapmıyorum. Bununla birlikte, genel olarak, HAYIR diyelim ki, kendi içinde, çapraz doğrulama nedensellik ile ilgili herhangi bir öngörü sunmuyor. Tasarlanmış bir deneyin olmaması durumunda, nedensellik konusu her zaman belirsizdir. Önerdiğiniz gibi, çapraz doğrulama öngörücü doğruluğu artırabilir ve artırabilir. Bu tek başına nedensellik hakkında hiçbir şey söylemez.

Tasarlanmış bir deneyin olmaması durumunda nedensel çıkarım, tüm ilgili tahmincileri içeren bir model gerektirecektir - gözlemsel bir çalışmada nadiren garanti edebileceğimiz bir şey. Üstelik, örneğin (ya da tahmin etmeye çalıştığımız sonuçla yüksek oranda ilişkili olan herhangi bir şey gibi) basit bir gecikme değişkeni, iyi bir model ve çok sayıda örnekte doğrulanabilecek bir model üretecektir. Ancak bu nedensellik sonucunu çıkarabileceğimiz anlamına gelmez. Çapraz doğrulama, tahminlerde tekrarlanabilirlik sağlar ve başka bir şey yapmaz. Nedensellik bir tasarım ve mantık meselesidir.

EDIT: İşte göstermek için bir örnek. Bir şehrin nüfusunu, çöplerin kaldırılması için harcadığı paraya dayanarak tahmin eden iyi bir tahmin doğruluğu olan bir model oluşturabilirim. Tahminin doğruluğunu iyileştirmek ve daha kararlı parametreler elde etmek için bu modelin doğruluğunu test etmek için çapraz doğrulama kullanabilirim. Şimdi, bu model tahmin için harika olsa da, nedensel mantık yanlıştır - nedensel yön tersine çevrilir. Bayındırlık İşleri Bakanlığı'ndaki kişilerin ne iddia ederse etsin, çöplerin kaldırılması için bütçelerini arttırmak, şehir nüfusunu artırmak için iyi bir strateji olmayacaktır (nedensel yorum).

Bir modelin doğruluğu ve tekrarlanabilirliği sorunları, gözlemlediğimiz ilişkiler hakkında nedensel çıkarımlar yapma kabiliyetimizden ayrıdır. Çapraz doğrulama bize sonuncusu ile değil, ikincisiyle yardımcı olur. Şimdi sıradan bir ilişki belirtme konusunda "doğru" bir model tahmin edersek (örneğin, çöp kaldırma bütçemizin gelecek yıl beklenen nüfusa dayanması gerektiğini belirlemeye çalışmak gibi), çapraz doğrulama daha büyük bir iş yapmamıza yardımcı olabilir Bu etkiyi tahmin etmemize güven. Bununla birlikte, çapraz onaylama nedensel ilişkiler konusunda "doğru" modeli seçmemize yardımcı olacak hiçbir şey yapmaz. Yine, burada çalışmanın tasarımına, konu uzmanlığımıza, teorimize ve mantığa güvenmemiz gerekiyor.


1
Yani etki tahminlerinde tekrarlanabilirliğin faydalı olabileceğini düşünmüyor musunuz? Nedensellik kanıtının ne olduğuna dair fikrinizde yalnız olmamanıza rağmen, bunun oldukça dar olduğunu düşünüyorum. Evrendeki bütün delillerin bulunmadığı bir deneyle bile nedensel bir ilişkiyi asla kesin olarak ispatlayamayız. Dolayısıyla bence amaç, tahmin ettiğimiz ilişki ne olursa olsun, bildiğimiz bilgiler verilen gerçeğe yakın olduğuna dair kanıt sunmaktır. Bir eğitim setinden bir uzatma örneğine olan tahminde tekrarlanabilirliğin, yapılan çıkarımlar üzerinde yararlı bir kontrol olabileceğini düşünmüyor musunuz?
Andy W

Yorumlarınızı da takdir ediyorum ve çıkarımların büyük ölçüde mantığa ve araştırma tasarımına bağlı olduğuna tamamen katılıyorum.
Andy W

1
Andy, görüşlerini bildirmek için yazımı düzenledim. Ayrıca, nedensel çıkarımın tasarlanmış bir deney bağlamı dışında yapılamayacağını söylemek istemem. Bununla birlikte, gözlemsel çalışmalarda daha zor ve daha az kesindir ve bu sorunla ilgili bize yardımcı olmak için model oluşturma prosedürlerini incelemeye çalışmamalıyız. Aksine, nedensel ilişkileri anlamaya çalıştığımız sorunları daha iyi anlamaya çalışmalıyız.
Brett,

Şüpheniz karşısında doğru çıkarımlar yapmak için doğruluk ve tekrarlanabilirlik konularının gerekli olması dışında, söylediğiniz her şeye katılıyorum. Uzmanlara mantıksal modeller ürettikleri şüphesinden yararlanmalarını sağlayabilirim. Endişelendiğim yerler, bulguların birçok gözlem bağlamında tekrarlanabilirliğidir. Yine de kabul ediyorum, tekrarlanabilirlik mutlaka deneysel ortamlarda en iyi şekilde ele alınan kafa karıştırıcı etkileri hesaba katmaz.
Andy W,

(+1) Özür dilerim. Görünüşe göre çok güzel bir cevabını yükseltmeyi unuttum. Zaten yararlı yorumlarınızı oyladı.
chl

13

Bana göre sorunuz daha akıllıca bir model için farklı doğrulama tatlarını ele alıyor gibi görünüyor: Çapraz doğrulama, iç geçerlilikle veya en azından başlangıçtaki modelleme aşamasıyla daha fazla ilgiliyken, daha geniş bir popülasyonda nedensel bağlantılar kurmakla daha ilgili için dış geçerlilik. Bununla (ve @ Brett'in hoş yorumunu izleyen bir güncelleme olarak), yani varsayımsal bir kavramsal model varsayarak genellikle çalışan bir örnek üzerinde bir model oluşturduğumuzu kastediyoruz (yani, yordayıcılar ve ilgilenilen sonuçlar (lar) arasındaki ilişkileri belirleriz), ve minimum sınıflandırma hata oranı veya minimum tahmin hatası ile güvenilir tahminler elde etmeye çalışıyoruz. Umarım, model ne kadar iyi performans gösterirse, görünmeyen veriler hakkındaki sonuçları tahmin etmemize o kadar iyi olur; Yine de, CV varsayımsal nedensel bağlantıların "geçerliliği" veya yeterliliği hakkında hiçbir şey söylemez. Bazı ılımlılık ve / veya arabuluculuk etkilerinin ihmal edildiği veya önceden bilinmediği bir modelle kesinlikle doğru sonuçlar elde edebiliriz.

Demek istediğim, modelinizi doğrulamak için kullandığınız yöntem ne olursa olsun (ve elde tutma yöntemi kesinlikle en iyisi değildir, ancak yine de epidemiyolojik çalışmada yaygın olarak kullanılan model aşamasından kaynaklanan sorunları hafifletmek için kullanılır), aynı örnekle çalışıyorsunuz. (daha büyük bir nüfusun temsilcisi olduğunu varsayıyoruz) Aksine, sonuçların ve nedensel bağların yeni örneklere veya makul derecede ilişkili bir popülasyona bu şekilde çıkarılan genellemeleri çoğaltma çalışmaları ile yapılmaktadır . Bu, modelimizin öngörme yeteneğini daha geniş bireysel değişkenlik aralığına sahip ve diğer potansiyel faktörler sergileyebilen bir "süper popülasyonda" güvenle test etmemizi sağlar.

Modeliniz, çalışma örneğiniz için geçerli tahminler sunabilir ve aklınıza gelebilecek tüm olası karıştırıcıları içerir; bununla birlikte, ilk modeli oluştururken tanımlanmayan nedensel yolda diğer faktörlerin ortaya çıkması nedeniyle yeni verilerle iyi performans göstermemesi mümkündür. Bu, bazı tahminciler ve bunlardan çıkarılan nedensel bağların, örneğin hastaların işe alındığı belirli araştırma merkezine bağlı olması durumunda ortaya çıkabilir.

Genetik epidemiyolojide, genom çapında pek çok dernek çalışması , DNA markalayıcıları ve gözlenen fenotip arasındaki nedensel ilişkiler hakkında basitleştirilmiş bir bakış açısıyla karmaşık hastalıkları modellemeye çalıştığımız için çoğalmayı başaramıyor, gen geni (epistasis), gen hastalıkları (pleiotropi), gen ortamı ve popülasyon altyapısının tümü devreye giriyor, ancak bakınız örneğin genom çapında ilişkilendirme sinyallerinin doğrulanması, artırılması ve rafine edilmesi(Ioannidis ve diğerleri, Nature Reviews Genetics, 2009 10). Bu nedenle, bir dizi genetik markör (çok düşük ve seyrek etki büyüklüğünde) ile gözlenen çapraz değişkenlikleri ve çok değişkenli gözlenen fenotiplerin (örneğin, beyaz / gri madde hacmi veya örneğin) arasındaki gözlenen varyasyonları hesaba katan bir performans modeli oluşturabiliriz. Beyinde fMRI ile gözlemlenen lokalize aktiviteler, nöropsikolojik değerlendirme veya kişilik envanteri yanıtları), yine de bağımsız bir örneklemde beklendiği gibi performans göstermez.

Bu konuyla ilgili genel bir referans olarak , EW Steyerberg'den (Springer, 2009) Bölüm 17 ve Klinik Tahmin Modellerinin Bölüm III'ünü önerebilirsiniz . Ayrıca Ioannidis'ten şu makaleyi de beğendim:

Ioannidis, JPA, En Çok Yayınlanan Araştırma Bulguları Neden Yanlış? KİTAPLAR Med. 2005 2 (8): e124


1
@chl: İfadenizi iç v. dış geçerlilik hakkındaki ilk paragrafta açıklayabilir misiniz? Aşina olduğum geleneğe göre: iç geçerlilik belirli bir örneklem içindeki değişkenler arasında sebep-sonuç ilişkilerini ortaya koyabilme; dış geçerlilik , bir numuneden diğer kişilere, yerlere ve zamanlara genelleme yeteneği ile ilgilidir. Geleneksel olarak, çapraz doğrulama sonuncusu ile ilgilidir ve bu nedenle, dış geçerliliği ile ilgili yukarıdaki tanım, oysa bunun iç geçerliliği ile ilgili olduğunu söylersiniz. İfadeni yanlış mı anladım?
Brett,

1
@ Brett CV'yi fazla çalışmadan kaçınmak veya çalışma numunesi üzerinde bir tahmin doğruluğu ölçüsü sağlamak için istatistiksel bir teknik olarak düşünüyordum (bu nedenle, iç geçerliliği gösteren özel bir araç olması gerekmez). Çok net değildim, teşekkürler ya da bunu işaret ediyordum. Bunun daha sonra eldeki örnekleme genelleme için kullanıldığını kabul ediyorum, ancak orada nedensel çıkarımla ilgisi olmadığını düşünüyorum (CV, çalışma örneğinde modellendiği şekilde nedensel bağlantılar hakkında hiçbir şey kanıtlamıyor). Dış geçerlilik hakkındaki görüşünüzü paylaşıyorum ama göstermek için başka örneklere ihtiyacımız var, değil mi?
chl

1
İlk paragrafı açıklığa kavuşturabilirsiniz. Özgeçmişin iç geçerliliği olmadığını söylemeye çalıştığını düşünüyorum. Bu diğer işlemler için bir mesele. Ancak, başka nedenlerden dolayı iyi bir iç geçerliliğe sahip olursak, ne olursa olsun, CV bunun, insanlar, yerler ve zamanlar arasında daha doğru bir şekilde etkileyeceğini tahmin etmeye yardımcı olacaktır - yani dış geçerliliği arttırmak. Özgeçmişin değişkenler arasındaki ilişkiler hakkında nedensel iddialarda bulunmamıza yardım edebileceğini düşünmüyorum - iç geçerlilik sorusunun kendisi - yalnızca yerleşik bir nedensel ilişkinin genelleştirilmesine yardımcı olmak için.
Brett,

1
@Brett Bu soruya yorumlarınızı çok uygun olduğunu düşünüyorum ve bazı konular çok güzel özetler. Bu noktada iç ve dış geçerlilik arasındaki karışıklığa yardımcı olacağından şüpheliyim, ancak chl'in genetik epidemiyolojisi örneği aslında dış geçerliliği olmayan (veri kümesi heterojenliği (veya popülasyon altyapısı) arasındaki hariç) iç geçerliliği sorunudur. Bu örneklerde iç geçerliliğinden daha az endişe).
Andy W

2
Brett'in iç ve dış geçerlilik arasındaki tanımı doğrudur, ancak bizim amaçlarımız için onu farklı terimlerle tanımlamaya yardımcı olacaktır. Dış geçerliliği sadece örneklemle ve bu örneklemin diğer popülasyonlarla olan ilişkisi ile ilgilidir. İç geçerlilik, tahmini etkiler ve bu etkileri tahmin etmek için kullanılan yapılar hakkında çeşitli hususlarla ilgilidir.
Andy W

12

Bu iyi bir soru, ancak cevap kesinlikle hayır: çapraz doğrulama nedensel çıkarımı iyileştirmeyecektir. Belirtiler ve hastalıklar arasında bir eşlemeniz varsa, çapraz doğrulama, modelinizin eklem dağılımını eşleştirdiğinden emin olmanıza yardımcı olacaktır; modelinizi tüm ham veri kümesine sığdırmanızdan daha iyi olacaktır, ancak size hiçbir şey söyleyemez. nedensellik yönlülüğü.

Çapraz doğrulama çok önemlidir ve çalışmaya değerdir, ancak veri kümenizdeki gürültülere fazla uymanızı engellemekten başka bir şey yapmaz. Daha fazla anlamak isterseniz, ESL'nin 7. Bölümünü tavsiye ederim: http://www-stat.stanford.edu/~hastie/Papers/ESLII.pdf


Referans için teşekkür ederim. Bu nedenle, model seçimi konusunda endişe duymadığınızı, eğitim veri setinin etki tahminlerinin onaylanması çapraz veri kümesine doğrulamanın yararlı olabileceğini söyleyin.
Andy W

Olabilir, ancak temelde önyükleme (veya bunun bazı varyasyonlarını) bu noktada yaptığınızı söyleyebilirim.
John Myles White,

Kabul ediyorum, ben de bu tür mantığı yansıtan düzenli olarak yapılan başka şeyler olduğunu düşünüyorum (örneğin alt küme özgüllük testleri veya eşdeğer olmayan bağımlı değişkenler). Ben sadece soruyu sordum çünkü daha resmi tedavilerin olduğunu hayal ettim.
Andy W,

Aşağı oy için yorumlarınız her zaman beklerim!
chl

Bu kitap vermeye devam eden hediye!
hayd

6

İzlemeye cevap vermek için @Andy burada bir cevap olarak gönderildi ...

Hangi tahminin doğru ve hangisinin yanlış olduğunu söyleyemesem de, iki model arasındaki Saldırı Mahkumiyeti ve Silah mahkumiyeti tahminlerindeki tutarsızlık, ya cümle uzunluğu üzerinde gerçek bir nedensel etkiye sahip olduğuna kuşku duymaz mı?

Bence demek istediğim, parametre tahminlerindeki tutarsızlık bize, parametre tahmininin hiçbirinin gerçek nedensel etkiyi göstermediğine inanmamız için neden veriyor. Buna katılıyorum, ancak böyle bir modelin gerçek nedensel etkiyi yaratacağı konusunda şüpheci olmak için zaten çok fazla nedenimiz vardı.

İşte benim alıştırmam: Aşırı uydurma verileri, önyargılı parametre tahminlerinin bir kaynağıdır ve bu önyargının, belirli bir nedensel etkiyi tahmin etmede diğer önyargı kaynaklarını telafi ettiğine inanmak için hiçbir neden olmadan, nedensel etkileri tahmin etmenin daha iyi olması gerekir. fazla sığmadan veri. Çapraz doğrulama aşırı uyumu önler, bu nedenle ortalama olarak nedensel etki tahminlerini iyileştirmesi gerekir.

Fakat eğer birileri beni gözlemsel verilerden nedensel bir etki tahminine inandırmaya ikna etmeye çalışıyorsa, verilerini fazla doldurmadıklarını kanıtlamak, modelleme stratejilerinin muhtemel olduğunu düşündüğümden şüphelenmediğim sürece düşük öncelikli olduğunu kanıtlıyor. aşırı uygun.

Çalıştığım sosyal bilimler uygulamalarında önemli konular, ölçüm sorunları ve duyarlılık kontrolleri ile daha fazla ilgileniyorum. Duyarlılık kontrolleriyle, terimlerin eklendiği veya kaldırıldığı modeldeki varyasyonları tahmin etmek ve ilginin etkisinin alt gruplar arasında değişmesine izin veren etkileşimli modelleri tahmin etmek anlamına gelir. İstatistiksel modelde yapılan bu değişiklikler, nedensel olarak yorumlamak istediğimiz parametre tahminini ne kadar etkiler? Bu parametredeki farklılıklar, model özellikleri veya anlatmaya çalıştığınız nedensel hikaye açısından anlaşılabilir alt gruplar arasında tahmin edilebilir mi, yoksa örneğin seçimin neden olduğu bir etkiye işaret ediyor mu?

Aslında, bu alternatif özellikleri çalıştırmadan önce. Parametre tahmininizin nasıl değişeceğini düşündüğünüzü yazın. İlgilendiğiniz parametre tahmininiz alt gruplar veya özellikler arasında farklılık göstermiyorsa, çalışmam bağlamında, bu çapraz onaylamadan daha önemlidir. Ancak yorumumu etkileyen diğer önemli konular hala daha önemli.


Tartığınız için çok teşekkür ederiz! Bakış açınız kesinlikle kendimi hiç bir zaman titizlikle oluşturmadığım nedensel modellerde çapraz doğrulama için doğrudan bir motivasyon yaratıyor. IMO'yu bile aşırı satış etiketini kullanarak kendinize biraz kısa satıyorsunuz. Örneğin, ilk keşif setinde, başlangıç ​​ölçeğine karşı log skalasına göre bağımsız bir değişken kullanan denklemler arasındaki modele bakabilirim. Günlük ölçeğine sahip modelin daha iyi uyduğuna karar veriyorum ve sonra bunu hold-out modelinde kullanıyorum. Bu genellikle aşırı uygun (bir veya diğeri arasında seçim yapma) olarak kabul edilmez, devam eder ...
Andy W

ama yine de sizin için önerdiğiniz paradigmaya uyuyor, işte benim paragrafım.
Andy W,

5

Cevapları için herkese teşekkür ediyorum, ancak soru, niyet etmediğim bir şeye, esas olarak doğru bir cevabı olmayan genel bir nedensel çıkarım nosyonu üzerine bir deneme olarak büyüdü.

Başlangıçta soruyu, hedef kitleye nedensel çıkarım için çapraz onaylama kullanımına ilişkin örnekler sorma niyetindeydim. Etki tahminlerinin tekrarlanabilirliğini değerlendirmek için bir test örneği kullanma ve örnek tutma kavramı benim için mantıklı göründüğü için bu tür yöntemlerin var olduğunu varsaymıştım. John'un belirttiği gibi, önerdiğim önyükleme işlemine benzemiyor ve alt küme özgüllük testleri veya eşdeğer olmayan bağımlı değişkenler gibi sonuçları doğrulamak için kullandığımız diğer yöntemlere benzediğini söyleyebilirim (bootstrapping modellerin parametrik varsayımlarını gevşetir ve alt küme Daha genel bir şekilde yapılan testler, sonuçların çeşitli durumlarda mantıklı olup olmadığını kontrol etmek için kullanılır). Bu yöntemlerin hiçbiri nedensel çıkarım için kanıt diğer kanıtların standartlarına uymuyor, ancak nedensel çıkarım için hala faydalı olduklarına inanıyorum.

chl 'nin yorumu, çapraz doğrulama kullanma iddiamın nedensel çıkarımda yardımcı olmak için iç geçerliliği kontrol etmesi olduğu konusunda doğrudur. Ancak tartışmayı ilerletecek hiçbir şey yapmadığı için şimdilik iç ve dış geçerlilik arasındaki ayrımı atmamızı istiyorum. chl'nin epidemiyolojideki genom geniş çalışmalarına bir örnek olarak, içsel olarak şüpheli kılan güçlü çıkarımlar yapan, zayıf bir iç geçerlilik örneği olarak düşünürdüm. Ben genom dernek çalışmaları aslında istediğim bir örnek olduğunu düşünüyorum. Genler ve hastalık arasındaki çıkarımların çapraz onaylama yoluyla iyileştirildiğini düşünüyor musunuz (sadece tüm belirteçleri tek bir modele atma ve p-değerlerini buna göre ayarlama yerine)?

Aşağıda, sorumu belirttiğim Berk makalesinde bir tablonun kopyasını yapıştırdım. Bu tablolar, aynı model üzerinde adım adım seçim kriterleri ve nedensel çıkarsama kullanarak sahte mantığı gösteren gösterildi da tespit edilmiştir seçim kriterleri kullanıldı bir modeli ve eğitim hem de parametreleri taklit ve numunenin tutun sağlar A priori. Bu beni gerçekçi olmayan bir sonuç olarak etkilemez. Hangi tahminin doğru ve hangisinin yanlış olduğunu söyleyemesem de, iki model arasındaki Saldırı Mahkumiyeti ve Silah mahkumiyeti tahminlerindeki tutarsızlık, ya cümle uzunluğu üzerinde gerçek bir nedensel etkiye sahip olduğuna kuşku duymaz mı? Bu varyasyonu bilmek faydalı değil mi? Modelimizi test etmek için bir dışarı tutma örneğini alarak hiçbir şey kaybetmezsek neden nedensel çıkarımı iyileştirmek için çapraz onaylamayı kullanamıyoruz (ya da bir dışarı tutma örneği kullanarak kaybettiğimizi özlüyorum?) alt metin


1
Bunun neden reddedildiğine dair bir not takdir edilecektir.
Andy W.

2
@Andy'den ikinci olarak çıkacağım ve aşağı oy verirken yorum bırakmayı önereceğim: eğer varsa neyin yanlış olduğunu öğrenmek her zaman yardımcı olacaktır. Özellikle bu durumda: Andy W, bana göre orijinal soruya daha fazla destek katan CW genişletilmiş yorumlarıyla geri döndü. Burada hiçbir şeyi aşağı indirmeye gerek yok!
chl

1
Standart hata / güven aralığı, size bu değişkenlik göstergesini vermedi mi? Test seti tahminleriniz, eğitim setinizden gelen standart güven aralıklarınız dahilindedir. Küçük standart hataların ve dar CI'lerin nedensellik için önemli olduğunu düşünürdüm.
olasılık

Evet @ probabilityislogic haklısın. Bu noktaya geldiğimde, zaten mevcut bir veri setine CV uyguladığınız bir durum için değil, başka bir zamanda toplanan bir veri setine yönelik olduğunu düşünüyorum. CV'nin burada nedensel ifadeleri desteklemede faydalı olabileceğini düşündüm, ancak durum böyle olsa bile bana açık değil. Model seçimi açısından tartışmalı olarak faydalı olduğunu gördüm, modeli hiçbir şekilde doğrulamıyordum (örneğin, bu yeni verilerdeki modelim çok yakın bir uyum sağlıyor).
Andy,


1

Bunun CV ile nedensel çıkarım arasındaki ilişkiyi düşünmenin sezgisel bir yolu olduğunu düşünüyorum: (lütfen yanılıyorsam düzeltin)

Her zaman CV'yi bir modelin tahminlerdeki performansını değerlendirmenin bir yolu olarak düşünüyorum. Ancak, nedensel çıkarımda, Occam Razor'a (parsimony) eşdeğer bir şeyle daha fazla ilgileniyoruz, bu nedenle CV yardımcı olmayacak.

Teşekkürler.


Soruyu ortaya koymamın nedeni, çapraz onaylamayı sadece modellerin tahmin edilebilir bir yeteneğini değerlendirmenin bir yolu olarak düşünmememiz gerekmemesidir. Bir model sonucunun (ve dolayısıyla çıkarımların) birçok potansiyel nedenden dolayı artefakt olmalarından endişe etmek nadir değildir. Bu nedenle bulguların sağlamlığını incelemek istiyoruz ve çapraz onaylamanın sonuçların sağlamlığını incelemek için yararlı bir bağlam olabileceğini düşündüm.
Andy W

yanlış yorum için üzgünüm
suncoolsu

Özür dilemene gerek yok. Görünüşe göre saçak bir şey öneren kişi benim ve çapraz doğrulama görünüşte her zaman önerdiğiniz bağlamda kullanılıyor.
Andy W

@suncoolsu, Nedensel çıkarımı düşündüğümde Occam Razor orparsimonu hakkında asla endişelenmiyorum, bağlantıyı bana açıklar mısınız?
Michael Bishop
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.