YÜRÜTME ÖZETİ: "p-hack" la la Gelman'ın çatal yollarında geniş olarak anlaşılacaksa , bunun ne kadar yaygın olduğu cevabı neredeyse evrensel olmasıdır.
Andrew Gelman bu konu hakkında yazmayı seviyor ve son zamanlarda blogunda bu konuyu yoğun bir şekilde yayınlıyor. Her zaman onunla aynı fikirde değilim, ancak hack'e bakış açısını seviyorum. İşte Forking Paths Garden Bahçesine Giriş kitabından bir alıntı (Gelman ve Loken 2013; American Scientist 2014'te yayımlanan bir versiyon ; Gelman'ın ASA'nın ifadesi üzerine kısa bir yorumuna bakın ), vurgu mayını:p
Bu soruna bazen “p-hack” veya “araştırmacı serbestlik derecesi” denir (Simmons, Nelson ve Simonsohn, 2011). Son bir makalede, “balıkçılık gezileri […]” hakkında konuştuk. Ancak, “balıkçılık” teriminin talihsiz olduğunu hissetmeye başlıyoruz, bu nedenle karşılaştırmadan sonra karşılaştırmaya çalışan bir araştırmacının görüntüsünü çağırıyor, bir balık takılıncaya kadar çizgiyi göle tekrar tekrar atıyor. Araştırmacıların düzenli olarak yaptığını düşünmek için hiçbir nedenimiz yok. Gerçek hikayenin, araştırmacıların varsayımlarını ve verilerini dikkate alarak makul bir analiz yapabileceğini, ancak verilerin farklı şekilde ortaya çıkmasını sağladığını düşünüyoruz.
“Balıkçılık” ve “p-hack” (ve hatta “araştırmacı serbestlik dereceleri”) terimlerinin iki nedenden ötürü pişmanlık duyuyoruz : birincisi, çünkü bu terimler bir çalışmayı tanımlamak için kullanıldığında, araştırmacıların yanıltıcı bir etkisi olduğu tek bir veri setinde bilinçli olarak birçok farklı analizler deniyorlardı; ve ikincisi, çünkü yanlışlıkla araştırmacıların serbestlik dereceleriyle ilgili sorunlara maruz kalmadıklarını düşünmek için birçok farklı analiz yapmadıklarını bilen araştırmacılara öncülük edebilir. [...]
Buradaki kilit noktamız, araştırmacının herhangi bir bilinçli balık avlama prosedürünü gerçekleştirmeden veya çoklu p değerlerini incelemeden incelemesi olmadan, veriler üzerinde oldukça yüksek olan bir veri analizi anlamında, çoklu potansiyel karşılaştırmaların mümkün olmasıdır. .
Öyleyse: Gelman p-hack terimini sevmiyor çünkü araştırmaların aktif olarak hile yaptığı anlamına geliyor. Oysa problemler basitçe ortaya çıkabilir, çünkü araştırmacılar verilere baktıktan sonra, örneğin bir keşif analizi yaptıktan sonra hangi testi yapacaklarını / raporlayacaklarını seçtikleri için.
Biyoloji alanında çalışma tecrübesi ile herkesin bunu yaptığını güvenle söyleyebilirim . Herkes (ben dahil), sadece belirsiz önsel hipotezler bazı verileri toplar kapsamlı araştırma analizini yapar, çeşitli anlamlılık testleri çalıştırır, biraz daha veri, ishal toplar ve testler tekrar çalıştırır ve son olarak bazı raporlar nihai el yazması-değerlerine. Tüm bunlar, aktif olarak hile yapmadan, aptal xkcd-jöle-fasulye tarzı kiraz toplaması yapmadan veya bilinçli olarak herhangi bir şeyi hacklemeden gerçekleşiyor.p
Öyleyse "p-hack" la la Gelman'ın çatal yollarında geniş bir şekilde anlaşılacaksa , ne kadar yaygın olduğu cevabı, neredeyse evrensel olmasıdır.
Akla gelen tek istisnalar, psikolojide tamamen önceden kaydedilmiş replikasyon çalışmaları veya tamamen önceden kaydedilmiş tıbbi denemelerdir.
Özel kanıt
Komik olarak, bazı insanlar araştırmacıların çoğunun bir tür hackleme yaptığını itiraf etmelerine itiraz ettiler ( John ve ark. 2012, Gerçeği Anlatmaya Teşvikli Tartışmalı Araştırma Uygulamalarının Yaygınlığını Ölçme ):
Bunun dışında herkes psikolojideki "replikasyon krizi" denilen şeyi duymuştur: en iyi psikoloji dergilerinde yayınlanan son çalışmaların yarısından fazlası çoğalmamaktadır ( Nosek ve ark. 2015, Psikolojik bilimin yeniden üretilebilirliğini tahmin etmek ). (Bu çalışma geçtiğimiz günlerde bloglarda tekrar tekrar yayınlandı, çünkü Science'ın Mart 2016 sayısında Nosek ve arkadaşlarını çürütmeye çalışan bir Yorum ve ayrıca Nosek ve arkadaşlarının bir cevabı yayınlandı. Tartışma başka yerlerde devam etti, Andrew Gelman ve Bağlandığı RetractionWatch gönderisi . Kibarca söylemek gerekirse eleştirmen inandırıcı değil.)
Kasım 2018 Güncellemesi: Kaplan ve Irvin, 2017, Büyük NHLBI Klinik Çalışmalarının Büyük Etkilerinin Olumsuzluğunun Zaman İçinde Arttığı , null sonuçları bildiren klinik çalışmaların kesiminin kayıt öncesi gerekli olduktan sonra% 43'ten% 92'ye yükseldiğini göstermektedir:
PLiteratürde değer dağılımları
Head ve ark. 2015
Ben yaklaşık duymadık Baş ve arkadaşları. Daha önce çalışmak, ancak şimdi çevre literatürü inceleyerek biraz zaman geçirdim. Ayrıca ham verilerini de kısaca inceledim .
Head ve ark. Tüm Open Access makalelerini PubMed'den indirdi ve metinde belirtilen tüm p-değerlerini alarak 2.7 milyon p-değeri elde etti. Bunlardan 1,1 milyon, olarak değil, olarak bildirildi . Bunların dışında, Head ve ark. rastgele bir kağıda bir p-değeri aldı, ancak bu dağılımını değiştirmiyor gibi görünüyor, işte bu nedenle, 1.1 milyon değerin dağılımının nasıl olduğu ( ile arasında ):p=ap<a00.06
bin genişlik kullandım ve rapor edilen değerlerinde bir çok tahmin edilebilir yuvarlama görülebiliyor . Şimdi, Head ve ark. şunları yapın: aralıktaki ve aralıktaki değerlerinin sayısını karşılaştırırlar ; eski sayı (önemli ölçüde) daha büyük olduğu ortaya çıkıyor ve bunu hack'in kanıtı olarak kabul ediyorlar. Eğer biri titriyorsa, onu figürümde görebilir.0.0001pp(0.045,0.5)(0.04,0.045)p
p=0.05p=0.048p=0.052p0.05
Ve bunun dışında, etkisi küçük .
p0.05
p
p=0.04p=0.05p
dağılımlarıp
ptFχ2
pp
p=0.05p≈0.05p
Mascicampo ve Lalande
p
Bu etkileyici görünüyor, ancak yayınlanan bir Yorumdaki Lakens 2015 ( ön baskı ) , yanıltıcı üstel uyum sayesinde bunun yalnızca etkileyici göründüğünü savunuyor . Ayrıca bakınız Lakens 2015, Sonuçların sadece 0,05'in altındaki p-değerleri ile sonuçlandırılmasının zorlukları ve referansları.
ekonomi bilimi
zp
ppp<0.05
Yanlış güven verici?
ppp0.050.05
Uri Simonsohn, bunun "yanlış güven verici" olduğunu savunuyor . Aslında, bu makaleleri eleştirel olmayan bir şekilde aktarıyor ama sonra “p-değerlerinin 0.05'ten daha küçük olduğunu” söylüyor. Sonra şöyle dedi: "Bu güven verici, ancak yanlış güven verici". Ve işte bu yüzden:
Araştırmacıların sonuçlarını aldıklarını bilmek istiyorsak, sonuçlarıyla ilgili p değerlerini incelemeliyiz, ilk etapta kesmek isteyebilecekleri. Tarafsız olması gereken örnekler, yalnızca ilgilenilen nüfustan gözlemleri içermelidir.
Pek çok makalede bildirilen çoğu p değeri, ilgilenilen stratejik davranışla ilgili değildir. Değişkenler, manipülasyon kontrolleri, etkileşimleri test etme çalışmalarındaki ana etkiler, vb. Bunları da dahil olmak üzere, p-hack'i küçümsüyoruz ve verilerin kanıt değerini abartıyoruz. Tüm p değerlerini analiz etmek farklı bir soru sorar, daha az mantıklı bir soru. “Araştırmacılar, çalıştıkları şeyi kesiyorlar mı?” Yerine “Araştırmacılar her şeyi kesiyor mu?”
pppp
p
Sonuçlar
pp p0.05