“Vahşi doğada” p-hackleme hakkında ne biliyoruz?


94

İfade s (ayrıca: -hacking "veri tarama" , "balık" "gözetleme" ya da) yapay olarak istatistiksel olarak anlamlı hale sonuçlarında olduğu istatistiksel uygulama hataları çeşitli ifade eder. Aşağıdakiler dahil ancak bunlarla sınırlı olmamak üzere, “daha ​​önemli” bir sonuç elde etmenin birçok yolu vardır:

  • sadece bir kalıbın bulunduğu verilerin "ilginç" bir alt kümesini analiz etmek ;
  • çoklu testler için uygun şekilde ayar yapılmaması , özellikle post-hoc testler ve önemli olmayan testlerin rapor edilmemesi;
  • Aynı hipotezin farklı testlerini denemek , örneğin hem parametrik hem de parametrik olmayan bir test ( bu konudaki bazı tartışmalar var ), ancak yalnızca en önemlisini rapor etmek;
  • İstenilen sonuç elde edilinceye kadar veri noktalarının dahil edilmesi / hariç tutulması ile deneme . Bir veri "veri temizleme aykırı" olduğunda, fakat aynı zamanda belirsiz bir tanım (ör. "Gelişmiş ülkeler" ekonometrik bir çalışmasında, farklı tanımlar farklı ülke kümeleri verir) veya kalitatif dahil etme kriterleri (örn. Meta-analizde) ortaya çıktığında ortaya çıkar belirli bir çalışmanın metodolojisinin dahil etmek için yeterince sağlam olup olmadığı, oldukça dengeli bir argüman olabilir);
  • önceki örnek isteğe bağlı durma ile ilgilidir , yani bir veri setini analiz etmek ve şimdiye kadar toplanan verilere bağlı olarak ("bu neredeyse önemli, üç öğrenci daha ölçelim!") hesaba katılmadan karar vermekle ilgilidir. analizde;
  • Model uydurma sırasında deney , özellikle içermek için değişkenler, aynı zamanda veri dönüşümleri / işlevsel form ile ilgili.

Bu yüzden p- hack yapılabileceğini biliyoruz . Genellikle biri olarak listelenir "tehlikeleri p -değeri" ve istatistiksel anlamlılık üzerinde ASA raporunda, sözü edilen Çapraz doğrulanmış burada tartışılan , bu yüzden de kötü bir şey olduğunu biliyorum. Bazı şüpheli motivasyonlar ve (özellikle akademik yayın yarışmasında) verimsiz teşvikler açık olmasına rağmen , kasıtlı yanlış uygulama veya basit cehalet olup olmadığını, neden yapıldığını tam olarak çözmenin zor olduğunu düşünüyorum. Kademeli bir regresyondan p -değerleri bildiren biri (çünkü kademeli prosedürleri "iyi modeller üretiyorlar" buluyorlar, ancak iddia edilen p'nin farkında değiller)- değerler geçersiz sayılır ) son kampta, ancak etki hala yukarıdaki mermi noktalarımın altında p- hacking.

P- saldırmanın “dışarıda” olduğuna dair kesin kanıtlar var, örneğin, Head ve arkadaşları (2015) bilimsel literatürü etkilediğine dair öyküler anlatıyor gibi görünüyor, ancak kanıt temeli hakkındaki mevcut durum nedir? Head ve arkadaşlarının aldıkları yaklaşımın tartışmasız olmadığının farkındayım, bu nedenle literatürün mevcut durumu veya akademik topluluktaki genel düşünce ilginç olacaktır. Mesela:

  • Ne kadar yaygındır ve oluşumunu yayın önyargısından ne ölçüde ayırabiliriz ? (Bu ayrım bile anlamlı mı?)
  • Etki özellikle sınırında akut mu? Benzer etkiler görülüyor mu , yoksa bütün p -değer aralıklarının etkilendiğini mi görüyoruz ?p 0,01p0.05p0.01
  • P- hacking'deki modeller akademik alanlar arasında değişiyor mu?
  • P- hack mekanizmalarından hangisinin (bir kısmı yukarıdaki kurşun noktalarında listelenmiştir) en yaygın olduğu hakkında fikrimiz var mı? Bazı formların "daha iyi gizlenmiş" oldukları için tespit edilmekten daha zor olduğu kanıtlandı mı?

Referanslar

Başkan, ML, Holman, L., Lanfear, R., Kahn, AT, & Jennions, MD (2015). P- hack'in bilimdeki kapsamı ve sonuçları . PLoS Biol , 13 (3), e1002106.


6
Son sorunuz bir araştırma için iyi bir fikir: farklı alanlardan oluşan bir grup araştırmacıya ham veriler verin, bunları SPSS'ye (veya ne kullanıyorlarsa olsunlar) donatın ve sonra daha önemli sonuçlar için birbirleriyle rekabet ederken yaptıklarını kaydedin. .
Tim

1
Kişi, bir kaggle gönderim geçmişi kullanarak olduğunu bildiği konular olmadan yapabilir. Yayın yapmıyorlar, ama sihirli sayıya ulaşmak için her yolu deniyorlar.
EngrStudent

1
Çapraz değerlendirme, p-hack'in basit simülasyon örneklerinden herhangi bir koleksiyona (örneğin topluluk vikisine) sahip midir? Simüle edilen araştırmacının "marjinal açıdan önemli" sonuçlara, daha fazla veri toplayarak, regresyon spesifikasyonlarıyla yapılan deneyleri vb.
Adrian

2
@Adrian CV sadece bir soru-cevap sitesidir, herhangi bir veri veya kod içermez, herhangi bir gizli depoya sahip değildir - cevaplarda bulduğunuz her şey CC lisansı altında size aittir :) Bu soru, bu tür örneklerin toplanması hakkında soru soruyor gibi görünüyor.
Tim

1
@Tim elbette, herhangi bir gizli kod deposu hayal etmiyordum - cevaplara eklenmiş kod parçacıkları. Örneğin, birisi "p-hack nedir?" Diye sorabilir ve biri cevabında oyuncak R simülasyonu içerebilir. Mevcut soruya kod örnekleriyle cevap vermek uygun olur mu? "Ne kadarını biliyoruz" çok geniş bir sorudur.
Adrian

Yanıtlar:


76

YÜRÜTME ÖZETİ: "p-hack" la la Gelman'ın çatal yollarında geniş olarak anlaşılacaksa , bunun ne kadar yaygın olduğu cevabı neredeyse evrensel olmasıdır.


Andrew Gelman bu konu hakkında yazmayı seviyor ve son zamanlarda blogunda bu konuyu yoğun bir şekilde yayınlıyor. Her zaman onunla aynı fikirde değilim, ancak hack'e bakış açısını seviyorum. İşte Forking Paths Garden Bahçesine Giriş kitabından bir alıntı (Gelman ve Loken 2013; American Scientist 2014'te yayımlanan bir versiyon ; Gelman'ın ASA'nın ifadesi üzerine kısa bir yorumuna bakın ), vurgu mayını:p

Bu soruna bazen “p-hack” veya “araştırmacı serbestlik derecesi” denir (Simmons, Nelson ve Simonsohn, 2011). Son bir makalede, “balıkçılık gezileri […]” hakkında konuştuk. Ancak, “balıkçılık” teriminin talihsiz olduğunu hissetmeye başlıyoruz, bu nedenle karşılaştırmadan sonra karşılaştırmaya çalışan bir araştırmacının görüntüsünü çağırıyor, bir balık takılıncaya kadar çizgiyi göle tekrar tekrar atıyor. Araştırmacıların düzenli olarak yaptığını düşünmek için hiçbir nedenimiz yok. Gerçek hikayenin, araştırmacıların varsayımlarını ve verilerini dikkate alarak makul bir analiz yapabileceğini, ancak verilerin farklı şekilde ortaya çıkmasını sağladığını düşünüyoruz.

“Balıkçılık” ve “p-hack” (ve hatta “araştırmacı serbestlik dereceleri”) terimlerinin iki nedenden ötürü pişmanlık duyuyoruz : birincisi, çünkü bu terimler bir çalışmayı tanımlamak için kullanıldığında, araştırmacıların yanıltıcı bir etkisi olduğu tek bir veri setinde bilinçli olarak birçok farklı analizler deniyorlardı; ve ikincisi, çünkü yanlışlıkla araştırmacıların serbestlik dereceleriyle ilgili sorunlara maruz kalmadıklarını düşünmek için birçok farklı analiz yapmadıklarını bilen araştırmacılara öncülük edebilir. [...] Buradaki kilit noktamız, araştırmacının herhangi bir bilinçli balık avlama prosedürünü gerçekleştirmeden veya çoklu p değerlerini incelemeden incelemesi olmadan, veriler üzerinde oldukça yüksek olan bir veri analizi anlamında, çoklu potansiyel karşılaştırmaların mümkün olmasıdır. .

Öyleyse: Gelman p-hack terimini sevmiyor çünkü araştırmaların aktif olarak hile yaptığı anlamına geliyor. Oysa problemler basitçe ortaya çıkabilir, çünkü araştırmacılar verilere baktıktan sonra, örneğin bir keşif analizi yaptıktan sonra hangi testi yapacaklarını / raporlayacaklarını seçtikleri için.

Biyoloji alanında çalışma tecrübesi ile herkesin bunu yaptığını güvenle söyleyebilirim . Herkes (ben dahil), sadece belirsiz önsel hipotezler bazı verileri toplar kapsamlı araştırma analizini yapar, çeşitli anlamlılık testleri çalıştırır, biraz daha veri, ishal toplar ve testler tekrar çalıştırır ve son olarak bazı raporlar nihai el yazması-değerlerine. Tüm bunlar, aktif olarak hile yapmadan, aptal xkcd-jöle-fasulye tarzı kiraz toplaması yapmadan veya bilinçli olarak herhangi bir şeyi hacklemeden gerçekleşiyor.p

Öyleyse "p-hack" la la Gelman'ın çatal yollarında geniş bir şekilde anlaşılacaksa , ne kadar yaygın olduğu cevabı, neredeyse evrensel olmasıdır.

Akla gelen tek istisnalar, psikolojide tamamen önceden kaydedilmiş replikasyon çalışmaları veya tamamen önceden kaydedilmiş tıbbi denemelerdir.

Özel kanıt

Komik olarak, bazı insanlar araştırmacıların çoğunun bir tür hackleme yaptığını itiraf etmelerine itiraz ettiler ( John ve ark. 2012, Gerçeği Anlatmaya Teşvikli Tartışmalı Araştırma Uygulamalarının Yaygınlığını Ölçme ):

John ve diğ.

Bunun dışında herkes psikolojideki "replikasyon krizi" denilen şeyi duymuştur: en iyi psikoloji dergilerinde yayınlanan son çalışmaların yarısından fazlası çoğalmamaktadır ( Nosek ve ark. 2015, Psikolojik bilimin yeniden üretilebilirliğini tahmin etmek ). (Bu çalışma geçtiğimiz günlerde bloglarda tekrar tekrar yayınlandı, çünkü Science'ın Mart 2016 sayısında Nosek ve arkadaşlarını çürütmeye çalışan bir Yorum ve ayrıca Nosek ve arkadaşlarının bir cevabı yayınlandı. Tartışma başka yerlerde devam etti, Andrew Gelman ve Bağlandığı RetractionWatch gönderisi . Kibarca söylemek gerekirse eleştirmen inandırıcı değil.)

Kasım 2018 Güncellemesi: Kaplan ve Irvin, 2017, Büyük NHLBI Klinik Çalışmalarının Büyük Etkilerinin Olumsuzluğunun Zaman İçinde Arttığı , null sonuçları bildiren klinik çalışmaların kesiminin kayıt öncesi gerekli olduktan sonra% 43'ten% 92'ye yükseldiğini göstermektedir:

görüntü tanımını buraya girin


PLiteratürde değer dağılımları

Head ve ark. 2015

Ben yaklaşık duymadık Baş ve arkadaşları. Daha önce çalışmak, ancak şimdi çevre literatürü inceleyerek biraz zaman geçirdim. Ayrıca ham verilerini de kısaca inceledim .

Head ve ark. Tüm Open Access makalelerini PubMed'den indirdi ve metinde belirtilen tüm p-değerlerini alarak 2.7 milyon p-değeri elde etti. Bunlardan 1,1 milyon, olarak değil, olarak bildirildi . Bunların dışında, Head ve ark. rastgele bir kağıda bir p-değeri aldı, ancak bu dağılımını değiştirmiyor gibi görünüyor, işte bu nedenle, 1.1 milyon değerin dağılımının nasıl olduğu ( ile arasında ):p=ap<a00.06

P-değerlerinin literatürdeki dağılımı

bin genişlik kullandım ve rapor edilen değerlerinde bir çok tahmin edilebilir yuvarlama görülebiliyor . Şimdi, Head ve ark. şunları yapın: aralıktaki ve aralıktaki değerlerinin sayısını karşılaştırırlar ; eski sayı (önemli ölçüde) daha büyük olduğu ortaya çıkıyor ve bunu hack'in kanıtı olarak kabul ediyorlar. Eğer biri titriyorsa, onu figürümde görebilir.0.0001pp(0.045,0.5)(0.04,0.045)p

p=0.05p=0.048p=0.052p0.05

Ve bunun dışında, etkisi küçük .

p0.05

p

p=0.04p=0.05p

dağılımlarıp

ptFχ2

Hartgerink PeerJ kağıdı

pp

Krawczyk

p=0.05p0.05p

Mascicampo ve Lalande

p

Mascicampo ve Lalande

Bu etkileyici görünüyor, ancak yayınlanan bir Yorumdaki Lakens 2015 ( ön baskı ) , yanıltıcı üstel uyum sayesinde bunun yalnızca etkileyici göründüğünü savunuyor . Ayrıca bakınız Lakens 2015, Sonuçların sadece 0,05'in altındaki p-değerleri ile sonuçlandırılmasının zorlukları ve referansları.

ekonomi bilimi

zp

Brodeur

ppp<0.05


Yanlış güven verici?

ppp0.050.05

Uri Simonsohn, bunun "yanlış güven verici" olduğunu savunuyor . Aslında, bu makaleleri eleştirel olmayan bir şekilde aktarıyor ama sonra “p-değerlerinin 0.05'ten daha küçük olduğunu” söylüyor. Sonra şöyle dedi: "Bu güven verici, ancak yanlış güven verici". Ve işte bu yüzden:

Araştırmacıların sonuçlarını aldıklarını bilmek istiyorsak, sonuçlarıyla ilgili p değerlerini incelemeliyiz, ilk etapta kesmek isteyebilecekleri. Tarafsız olması gereken örnekler, yalnızca ilgilenilen nüfustan gözlemleri içermelidir.

Pek çok makalede bildirilen çoğu p değeri, ilgilenilen stratejik davranışla ilgili değildir. Değişkenler, manipülasyon kontrolleri, etkileşimleri test etme çalışmalarındaki ana etkiler, vb. Bunları da dahil olmak üzere, p-hack'i küçümsüyoruz ve verilerin kanıt değerini abartıyoruz. Tüm p değerlerini analiz etmek farklı bir soru sorar, daha az mantıklı bir soru. “Araştırmacılar, çalıştıkları şeyi kesiyorlar mı?” Yerine “Araştırmacılar her şeyi kesiyor mu?”

pppp

Simonsohn

p

Sonuçlar

pp p0.05


4
simply because the researches chose what test to perform/report after looking at the dataEvet; ve sorun kaçınılmazdır, çünkü iki ucu keskindir. Veriler için daha iyi bir yöntem seçildiğinde - bu belirli bir örneklemin üzerine mi yoksa o popülasyonun teknik çağrılarının bir araya gelmesi çok mu fazla? Veya - aykırı değerlerin kaldırılması - popülasyona mı hükmediyor veya kurtarıyor mu? Sonunda kim söyleyecek?
ttnphns

En çok umduğum cevap türü belki şu andaki literatürün kısa bir sunumuydu, bazılarının, Baş et ve arkadaşlarının son düşüncenin adil bir özeti olup olmadığına dair göstergeleriydi. Bu cevabı hiç beklemiyordum. Ama bence harika ve Gelman'ın düşünceleri ve pratik görüşleri özellikle yardımcı oluyor. Bu soruyu yazdığımda aslında @ tnnns ile benzer düşüncelerim vardı (belki de gösterir, hatta "fazla uydurma" kelimesini de dahil etmeyi bile düşündüm.)
Silverfish

Bununla birlikte, “bilimin pratikte nasıl işlediğinin” genel ve kaçınılmaz bir sıkıntının yanı sıra, istatistiksel testlerin varsayımları için kusurlu bir eşleşme olduğu için, bu öküzcünün “kötü niyetli bilgisayar korsanlarının karanlık sanatının” gerçekten orada olup olmadığını merak ediyorum ve eğer öyleyse, ne kadar ulaştığı. Bunu teşvik etmek için kesinlikle güçlü (yanlış) teşvikler var.
Silverfish,

2
Beni bu Head ve ark. bildiri, @Silverfish, bu yüzden itiraf etmeliyim ki, şu an çalışmak yerine, Head et al.
amip

2
+1. Gelman'ın en son blog makalesi ( andrewgelman.com/2016/03/09/… ) birçok konuyu kapsıyor ve çoğaltma yapmaya çalışan ve daha sonra özgün çalışma yazarları tarafından şiddetle eleştirilen bir grubun ilginç bir birleştiricisini vurguluyor: retractionwatch.com/
Wayne,

22

Huni grafikleri, başında meta analizi yapan muazzam bir istatistiksel yenilik olmuştur. Temel olarak, bir huni grafiği aynı arazideki klinik ve istatistiksel önemi gösterir. İdeal olarak, bir huni şekli oluştururlar. Bununla birlikte, bazı meta-analizler, araştırmacıların (veya yayıncıların) seçici olmayan boş sonuçlara dayanmadığı güçlü bir çift modlu şekil gösteren huni grafikleri üretmiştir. Sonuç, üçgenin genişlemesidir, çünkü daha küçük, daha az güçlü çalışmalar, istatistiksel anlamlılığa ulaşmak için sonuçları "cesaretlendirmek" için daha sert yöntemler kullanmıştır. Cochrane Report ekibinin onlar hakkında söyleyecekleri var .

Önyargı varsa, örneğin, istatistiksel olarak anlamlı bir etkisi olmayan daha küçük çalışmalar (Şekil 10.4.a, Panel A'da açık daireler olarak gösterilir) yayınlanmayacağından, bu, huni grafiğinin asimetrik görünümüne, alt köşesinde boşluk bırakılmasına neden olacaktır. Grafik (Panel B). Bu durumda, bir meta-analizde hesaplanan etki, müdahale etkisinin fazla tahmin eğilimindedir (Egger 1997a, Villar 1997). Asimetri ne kadar belirgin olursa, önyargı miktarının yüksek olması muhtemeldir.

İlk çizim, önyargı yokluğunda simetrik bir çizim gösterir. İkinci raporlama yanlılığı varlığında asimetrik bir arsa gösterir. Üçüncüsü, önyargının varlığında asimetrik bir grafiği gösterir çünkü bazı küçük çalışmalar (açık daireler) daha düşük metodolojik niteliktedir ve bu nedenle abartılı müdahale etkisi tahminleri üretmektedir.

görüntü tanımını buraya girin

görüntü tanımını buraya girin

görüntü tanımını buraya girin

Yazarların çoğunun kesmek için kullandıkları yöntemlerin farkında olmadığından şüpheleniyorum. Her seferinde farklı dışlama kriterleri uygulayarak veya farklı ayar değişkenleri seçerek, uydukları genel model sayısını takip etmezler. Bununla birlikte, basit bir süreç uygulamak zorunda olsaydım, toplam uygun model sayısını görmeyi çok isterdim. Bu, modelleri tekrar denemenin meşru sebepleri olabileceği anlamına gelmez, örneğin, örneklemde ApoE'nin toplandığını bilmeyen bir Alzheimer analizini yaptık. Yüzümdeki yumurta, modelleri yeniden düzenliyoruz.


4

2
Sorumun bir yönü, "p-hack" ve "yayın yanlılığı" arasındaki ayrımdı - bu cevap iki yönden birleşti. Söylediklerinizi bu şekilde yorumlamak doğru olur muyum, yani "yayın önyargısı aslında bir kesmek biçimindedir, ancak yayıncı tarafındandır"?
Silverfish,

1
pp

2
Hmm. Öncelikle protesto etmek ve yayın önyargılarının p-hack'lerden farklı olduğunu iddia etmek istedim (benzer şekilde, sanırım @Silverfish'in Q'yu nasıl çerçevelediğine), ancak daha sonra sınırın ilk başta düşündüğümden daha zor olduğunu fark ettim. Jöle-fasulye tarzı çoklu karşılaştırmalar yapmak ve sadece önemli olanları bildirmek (p-hack?) Çoklu çalışma yapmaktan ve sadece önemli olanları bildirmekten çok farklı değildir (tanım gereği yayın yanlılığı). Yine de, p <0.05 verene kadar verilere masaj yapmak anlamında p-hack etmek, kendimi yeterince farklı hissediyor.
amip

2
pp
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.