P değerleri gerçekten işe yarıyor mu? Yılda bir milyon araştırma makalesi saf rastgeleliğe dayanabilir mi?


98

İstatistikler konusunda çok yeniyim ve sadece değerleri de dahil olmak üzere temelleri anlamayı öğreniyorum . Ama şu anda aklımda büyük bir soru işareti var ve umarım anlayışımın yanlış olduğunu umuyorum. İşte düşünce sürecim:p

Dünyanın dört bir yanındaki araştırmalar "sonsuz maymun teoremindeki" maymunlar gibi değil mi? Dünyada 23887 üniversite bulunduğunu düşünün. Her üniversitede 1000 öğrenci varsa, bu her yıl 23 milyon öğrencidir.

Diyelim ki her yıl, her öğrenci olan hipotez testlerini kullanarak en az bir araştırma .α=0.05

Bu, tüm araştırma örnekleri rastgele bir popülasyondan alınmış olsa bile, bunların yaklaşık% 5'inin “boş hipotezi geçersiz olarak reddedeceği” anlamına gelmez. Vay. Bunu bir düşün. Bu, "önemli" sonuçlardan dolayı her yıl yayınlanan bir milyon araştırma makalesiyle ilgilidir.

Bu şekilde çalışıyorsa, bu korkutucu. Bu, kabul ettiğimiz “bilimsel gerçeğin” birçoğunun saf rastgeleliğe dayandığı anlamına gelir.

Basit bir R kodu parçası anlamamı destekliyor:

library(data.table)
dt <- data.table(p=sapply(1:100000,function(x) t.test(rnorm(10,0,1))$p.value))
dt[p<0.05,]

Yani başarılı hakkındaki bu makaleye yaptığı -fishing: Çikolata Düşünme Kilo Kaybı yardımcı olur içine ben Milyonlarca kandırdım. İşte nasıl .p

Orada gerçekten hepsi bu mu? Bu nasıl "bilim" çalışması gerekiyordu?


31
Asıl sorun potansiyel olarak boş değerlerin sayısının önem düzeyi ile çarpılmasından potansiyel olarak çok daha kötüdür (önem bulma baskısı nedeniyle) (eğer önemli bir dergi önemli olmayan sonuçlar yayınlamazsa veya bir hakem olmayan bir makaleyi reddederse) önemli sonuçlar elde etmek, önem kazanmanın bir yolunu bulmak için baskı var ... ve burada birçok soruda 'önem avcılığı' keşif gezileri görüyoruz); bu, göründüğünden çok daha yüksek olan gerçek anlamlılık seviyelerine yol açabilir.
Glen_b

5
Öte yandan, birçok boş hipotez, boş noktalardır ve bunlar nadiren doğrudur.
Glen_b

37
Lütfen bilimsel metodu p-değerleri ile karıştırmayınız. Diğer şeylerin yanı sıra, bilim tekrarlanabilirlik konusunda ısrar ediyor . Diyelim ki, soğuk füzyon üzerine yazılar yayınlanabilir (1989'da), ancak soğuk füzyon, son çeyrek yüzyıl boyunca kabul edilebilir bir bilimsel teori olarak mevcut değildi. Ayrıca, az sayıda bilim insanının, ilgili boş hipotezin gerçekten doğru olduğu alanlarda çalışmakla ilgilendiğine dikkat edin . Bu nedenle, “tüm araştırma örneklerinin [a] rastgele bir popülasyondan çıkarıldığı” hipoteziniz gerçekçi hiçbir şeyi yansıtmıyor.
whuber

13
Xkcd jöle fasulyesi karikatürüne zorunlu referans . Kısa cevap - bu maalesef çok sık gerçekleşiyor ve bazı dergiler, kamuoyuna girmesini sağlayan "önemli" araştırma miktarını azaltmak için her yayını inceleyen bir istatistikçiyi incelemekte ısrar ediyor. Bu önceki tartışmada
Floris

8
Belki de şikayet almıyorum ... "Sahte hipotezlerin% 95'ini başarılı bir şekilde yendik. Kalan% 5'i, anlamlı etkilere benzeyen rastgele dalgalanmalar nedeniyle yenmek için o kadar kolay değildi. Bunlara daha yakından bakmalı ve diğer% 95. " Bu tam olarak "bilim" gibi bir şey için doğru davranışa benziyor.
Eric Towers

Yanıtlar:


70

Bu kesinlikle geçerli bir endişe, ancak bu tam olarak doğru değil.

1.000.000 çalışma yapılırsa ve tüm boş hipotezler doğruysa, o zaman yaklaşık 50.000, p <0.05'te önemli sonuçlara sahip olacaktır. Ap değerinin anlamı budur. Ancak, boş değer esasen kesinlikle kesinlikle doğru değildir. Fakat onu “neredeyse doğru” ya da “doğru” ya da benzeri şeylerle gevşetmiş olsak bile, bu, 1.000.000 çalışmanın hepsinin gibi şeyler hakkında olması gerektiği anlamına gelir.

  • Sosyal güvenlik numarası ile IQ arasındaki ilişki
  • Ayak parmaklarınızın uzunluğu doğum durumunuzla mı ilişkili?

ve bunun gibi. Saçmalık.

Bir sorun, elbette, hangi boş değerlerin doğru olduğunu bilmememizdir. Başka bir problem, yorumunda bahsedilen @Glen_b'dir - dosya çekmecesi sorunu.

Bu yüzden Robert Abelson'un İstatistikleri'nde Prensip Argümanı olarak ortaya koyduğu fikirlerini çok seviyorum . Diğer bir deyişle, istatistiksel kanıt, bir şeyin neden böyle olduğu ve MAGIC kriterlerine göre yargılanması gerektiğine dair ilkeli bir argümanın parçası olmalıdır:

  • Büyüklük: Etki ne kadar büyük?
  • Eklem: "ifs", "ands" ve "buts" ile dolu mu (bu kötü)
  • Genel: Ne kadar yaygındır?
  • interestingness
  • Güvenilirlik: İnanılmaz iddialar çok fazla kanıt gerektirir

4
"1M çalışmalar yapılır ve eğer biri bile söyleyebilir misiniz hatta tüm boş hipotezler doğruysa, o zaman yaklaşık olarak 50.000 tip 1 hata yapacak ve araştırmacı p <0.05 alırsa yanlış onlar sadece biliyoruz? Sıfır hipotezini reddetmek" h0 doğrudur ve nadir görülen bir olay meydana geldi VEYA h1 yanlıştı "dedi. Bu çalışmanın sonuçlarına bakarak hangisinin olduğunu söylemenin bir yolu yok, değil mi?
n_mu_sigma 19:15

5
Yalnızca pozitif, yanlış, yanlış bir pozitif elde edebilirsiniz. Tamamen gürültülü 40 IV topladıysanız, o zaman bir tip I hata yapma şansınız olurdu. Ama genelde IV'leri bir nedenden ötürü seçeriz. Ve sıfır yanlıştır. Null yanlış ise tip I hata yapamazsınız.
Peter Flom

6
Mermi noktaları da dahil olmak üzere ikinci paragrafınızı hiç anlamıyorum. Diyelim ki tartışma uğruna 1 milyon çalışmanın hepsi belirli bir durumu iyileştirmek için ilaç bileşiklerini test ediyordu. Bu çalışmaların her biri için boş hipotez, ilacın durumu iyileştirmediği yönündedir. Öyleyse neden "esasen asla kesin olarak doğru olmasın"? Ayrıca, neden tüm çalışmaların ss # ve IQ gibi saçma sapan ilişkiler hakkında olması gerektiğini söylüyorsunuz? Amacını anlamama yardımcı olabilecek ek açıklamalar için teşekkür ederim.
Chelonian

11
@ PeterFlom'un örneklerini somutlaştırmak için: Bir SSN'nin ilk üç basamağı (eskiden) başvuranın posta kodunu kodlar. Bireysel devletler biraz farklı demografik özelliklere sahip olduğundan ve parmak boyutu bazı demografik faktörlerle (yaş, ırk vb.) İlişkilendirilebileceğinden, neredeyse kesin olarak sosyal güvenlik numarası ile parmak boyutu arasında bir ilişki vardır - eğer yeterli veri varsa.
Matt Krause

6
@MattKrause iyi bir örnek. Parmak sayısını cinsiyete göre tercih ederim. Eminim ki tüm erkeklerden ve tüm kadınlardan bir nüfus sayımı alırsam, bir cinsiyetin diğerinden ortalama olarak daha fazla parmağı olduğunu bulurdum. Çok büyük bir örnek almadan, hangi cinsiyetin daha fazla parmağı olduğu hakkında hiçbir fikrim yok. Dahası, bir eldiven üreticisi olarak eldiven tasarımında parmak sayımı verilerini kullanacağımdan şüpheliyim.
emory

40

Dünyanın dört bir yanındaki araştırmaların hepsi "sonsuz maymun teoremi" maymunları gibi değil mi?

Unutmayın, bilim adamları kritik maymunlar gibi DEĞİLDİR, çünkü araştırma davranışları - özellikle deney - rastgele değil. Deneyler (en azından olması gerektiği gibi) önceki araştırmaların büyük bir kısmını oluşturan mekanik olarak bilgilendirilmiş hipotezlere dayanan inanılmaz derecede kontrol edilen manipülasyonlar ve ölçümlerdir. Onlar sadece karanlıkta rastgele atışlar değil (ya da daktilodaki maymun parmakları).

Dünyada 23887 üniversite bulunduğunu düşünün. Her üniversitede 1000 öğrenci varsa, bu her yıl 23 milyon öğrencidir. Diyelim ki her yıl, her öğrencinin en az bir araştırma yapması,

Yayınlanan araştırma bulgularının sayısı için bu tahmin çok yolunda gitmeli. Dünyada 23 milyon "üniversite öğrencisi" olup olmadığını bilmiyorum (bu sadece üniversiteleri veya kolejleri de içeriyor mu?), Ancak büyük çoğunluğunun hiçbir zaman hiçbir bilimsel bulgu yayınlamadığını biliyorum. Demek istediğim, çoğu bilim adamı değil ve çoğu bilim adamı bile bulgu yayınlamıyor.

Her yıl yapılan bilimsel yayın sayısı için daha muhtemel bir tahmin (bazı tartışmalar ) yaklaşık 1-2 milyondur.

Bu, tüm araştırma örnekleri rastgele popülasyondan alınmış olsa bile, bunların yaklaşık% 5'inin “boş hipotezi geçersiz olarak reddedeceği” anlamına gelmez. Vay. Bunu düşün. Bu, "önemli" sonuçlardan dolayı her yıl yayınlanan bir milyon araştırma makalesiyle ilgilidir.

Tüm yayınlanmış araştırmaların anlamlılığın p = 0.05 değerinde doğru olduğu istatistiklere sahip olmadığını unutmayın. Genellikle p <0.01, hatta p <0.001 gibi p değerleri görülür. Tabii ki "ortalama" p değerinin bir milyondan fazla kağıttan ne olduğunu bilmiyorum.

Bu şekilde çalışıyorsa, bu korkutucu. Bu, kabul ettiğimiz “bilimsel gerçeğin” birçoğunun saf rastgeleliğe dayandığı anlamına gelir.

Ayrıca unutmayın, bilim adamları vardır gerçekten "bilimsel gerçeği" olarak 0.05 civarında p sonuçların az sayıda almak gerekiyordu. Yakınında bile değil. Bilim adamlarının, her biri uygun istatistiksel güce, makul mekanizmaya, tekrarlanabilirliğe, etkinin büyüklüğüne, vb. Sahip olduğu birçok araştırmayı bütünleştirmeleri ve bunu, bazı fenomenlerin nasıl çalıştığı konusunda geçici bir modele dahil etmeleri gerekiyor.

Ancak bu, neredeyse tüm bilimin doğru olduğu anlamına mı geliyor? Olmaz. Bilim adamları insandır ve önyargılara, kötü araştırma metodolojisine (uygunsuz istatistiksel yaklaşımlar dahil), dolandırıcılık, basit insan hatası ve kötü şansa av düşerler. Muhtemelen yayınlanmış bilimin sağlıklı bir bölümünün yanlış olmasında daha baskın olan p <0.05 konvansiyonundan ziyade bu faktörlerdir. Aslında, hemen takip etmeye devam edelim ve ortaya koyduğunuzdan daha “daha ​​korkutucu” bir açıklama yapalım:

En Çok Yayınlanan Araştırma Bulguları Neden Yanlış?


10
Ioannidis'in, soruyu destekleyen kesin bir argüman oluşturduğunu söyleyebilirim. Bilim, burada yanıtlayan iyimserlerin olduğu gibi bir şey yapmıyor gibi görünüyor. Ve yayınlanan birçok araştırma asla tekrarlanmıyor. Dahası, çoğaltma girişiminde bulunulduğunda, sonuçlar Ioannidis'in çok fazla yayınlanmış bilimin temelde kilitlendiği argümanını destekleme eğilimindedir.
matt_black

9
Parçacık fiziğinde bir keşif talep etmek için p değeri eşiğimizin 0.00000057 olması ilginç olabilir.
David Z,

2
Ve birçok durumda, hiçbir p değeri yoktur. Matematik ve teorik fizik sık karşılaşılan durumlardır.
Davidmh,

21

-değerlerini anlamanız doğru görünüyor.p

Benzer kaygılar oldukça sık dile getiriliyor. Örneğinizde hesaplama yapmak mantıklı olan, yalnızca yanlış pozitiflere ulaşan 23 milyondan fazla olan çalışmaların sayısı değil, aynı zamanda yanlış olan önemli etkiye sahip olan çalışmaların oranıdır. Buna "yanlış keşif oranı" denir. Eşit olmayan örneğin; 23 milyon çalışmalar arasında deliklerle örneğin orantılı olarak çeşitli diğer şeye bağlıdır. Bu elbette bilmek imkansız, ancak biri tahminlerde bulunabilir. Bazı insanlar yanlış keşif oranının en az % 30 olduğunu söylüyor .α

Örneğin, bkz. 2014 tarihli bir makalenin David Colquhoun tarafından yapılan bu son tartışması: Yanlış keşif oranı ve çoklu testle karışıklık (Colquhoun 2014'te) . Bu “en az% 30” tahminine karşı savundum, ancak bazı araştırma alanlarında yanlış keşif oranının% 5'ten çok daha yüksek olabileceği konusunda hemfikirim. Bu gerçekten endişe verici.

Null değerinin neredeyse asla gerçek olmadığını söylemenin burada faydası olduğunu sanmıyorum; S tipi ve M tipi hataları (Andrew Gelman tarafından getirildiği gibi) I / II hatalarından çok daha iyi değildir.

Bence asıl anlamı, kişinin izole edilmiş bir "anlamlı" sonuçtan asla güvenmemesi gerektiği.

Bu, çok katı kriterleri ile yüksek enerji fiziğinde bile geçerlidir ; Higgs bozonunun keşfedilmesinin kısmen teori öngörüsüne çok uygun olduğuna inanıyoruz. Bu elbette çok daha fazla, bu yüzden daha düşük geleneksel önem kriterleri ( ) ve çok özel teorik tahminlerin bulunmadığı diğer bazı disiplinlerde . α = 0.05α107α=0.05

İyi çalışmalar, en azından benim alanımda, izole edilmiş bir sonuç bildirmiyor. Böyle bir bulgu başka (en azından kısmen bağımsız) bir analizle ve birkaç başka bağımsız deneyle onaylanmalıdır. Alanımdaki en iyi çalışmalara bakarsam, her zaman birlikte belirli bir sonuca işaret eden bir sürü deney görüyorum; onların "toplu" -değeri (yani açıkça bilgisayarlı asla) çok düşüktür.pp<0.05p

Başka bir deyişle, eğer bir araştırmacı biraz bulgusu alırsa , bunun yalnızca o gidip araştırması gerektiği anlamına gelir. Bu kesinlikle “bilimsel gerçek” olarak görülmesi gerektiği anlamına gelmiyor.p<0.05


Re "kümülatif p değerleri": Tek tek p değerlerini çoğaltabilir misiniz, yoksa çalışması için bazı korkunç kombinatorikler yapmanız mı gerekiyor?
Kevin,

@Kevin: Kişi bireysel değerlerini çoğaltabilir , ancak kişinin önem eşiğini uyarlaması gerekir . [0,1] 'e eşit dağılmış 10 rasgele -değeri düşünün (yani boş hipotez altında üretilmiştir); Onların ürünleri büyük olasılıkla 0.05'in altında olacak, fakat boş değeri reddetmek saçma olacaktır. Fisher'ın p-değerlerini birleştirme yöntemine bakın; CrossValidated'da da bununla ilgili bir sürü konu var. α ppαp
amip,

17

Endişeniz, bilimdeki yeniden üretilebilirlik konusundaki tartışmanın büyük bir kısmını oluşturan kaygıdır. Ancak, gerçek durum, düşündüğünüzden biraz daha karmaşık.

İlk önce bazı terminoloji kuralım. Boş hipotez anlamlılık testi bir sinyal saptama problemi olarak anlaşılabilir - boş hipotez ya doğru ya da yanlıştır, ya reddetmeyi ya da korumayı seçebilirsiniz. İki kararın ve iki olası "gerçek" durumun birleşimi, çoğu kişinin ilk öğrenim istatistiklerini öğrenirken bir noktada gördükleri aşağıdaki tabloda yer almaktadır:

görüntü tanımını buraya girin

Boş hipotez anlamlılık testi kullanan bilim adamları, doğru kararların sayısını (mavi olarak gösterilen) en üst düzeye çıkarmaya ve yanlış kararların (kırmızı ile gösterilen) sayısını en aza indirmeye çalışıyor. Çalışan bilim adamları, ayrıca iş bulmaları ve kariyerlerini ilerletmeleri için sonuçlarını yayınlamaya çalışıyorlar.

Tabii ki, diğer birçok yanıtlayıcının daha önce de belirttiği gibi, boş hipotezin rastgele seçilmediğini unutmayın - bunun yerine, genellikle seçilmiştir , çünkü önceki teoriye dayanarak, bilim adamı yanlış olduğuna inanmaktadır . Maalesef, bilim adamlarının tahminlerinde doğru oldukları zaman oranını ölçmek zordur, ancak bilim adamları " yanlıştır" sütunu ile uğraşırken yanlış pozitiflerden ziyade yanlış negatiflerden endişe etmeleri gerektiğini akılda .H0


Bununla birlikte, yanlış pozitiflerden endişe duyuyor görünüyorsunuz, bu yüzden " true" sütununa odaklanalım . Bu durumda, bir bilim insanının yanlış sonuç yayınlama olasılığı nedir?H0

Yayın yanlılığı

Yayınlanma olasılığı, sonucun "önemli" olup olmadığına bağlı olmadığı sürece, olasılık tam olarak - 0,05 ve bazen alana bağlı olarak daha düşüktür. Sorun yayının olasılığı yönünde yeterli kanıt olmasıdır gelmez sonuç önemli olmasına bağlı (örneğin bkz, Stern & Simes, 1997 ; . Dwan ve diğerleri, 2008 ), ya bilim adamları sadece yayın için anlamlı sonuçlar sunmak için (dosya çekmecesi olarak adlandırılan sorun; Rosenthal, 1979 ) ya da önemli olmayan sonuçların yayınlanmak üzere sunulması ancak akran incelemesi yoluyla yapılmaması nedeniyle.α

Gözlenen bağlı yayın olasılık genel sorunu -değeri ile kastedilen budur yayın önyargı . Geri adım atarsak ve daha geniş bir araştırma literatüründe yayın önyargısının etkilerini düşünürsek, yayın önyargısından etkilenen bir araştırma literatürü hala doğru sonuçlar içerecektir - bazen bir bilim adamının yanlış olduğunu iddia ettiği sıfır hipotezi, ve yayın yanlılığının derecesine bağlı olarak, bazen bir bilim insanı, belirli bir boş hipotezin doğru olduğunu doğru şekilde iddia edecektir. Bununla birlikte, araştırma literatürü çok büyük oranda hatalı pozitif oranlarla daraltılacaktır (yani, araştırmacının, gerçekte doğru olduğunda boş hipotezin yanlış olduğunu iddia ettiği çalışmalar).p

Araştırmacı serbestlik dereceleri

Yayın önyargısı, sıfır hipotezi altında, önemli bir sonuç yayınlama olasılığının büyük olacağı tek yol değildir . Uygun olmayan şekilde kullanıldığında, bazen araştırmacıların serbestlik dereceleri olarak etiketlenen araştırmaların ve veri analizinin tasarımında belirli esneklik alanları ( Simmons, Nelson ve Simonsohn, 2011 ), yanlış pozitiflerin olmadığı durumlarda bile, yanlış pozitiflerin oranını artırabilir. yayın yanlılığı. Örneğin, anlamlı olmayan bir sonuç elde ettikten sonra, tüm (veya bazı) bilim adamlarının, eğer bu dışlama önemli olmayan sonucu önemli bir sonuçta değiştirecekse, temel bir veri noktasını hariç tutacağını varsayarsak, hatalı pozitiflerin oranı, büyükααα. Yeterli sayıda sorgulanabilir araştırma uygulamasının varlığı göz önüne alındığında, hatalı pozitiflerin oranı, nominal oran .05 olarak ayarlanmış olsa bile .60'a kadar çıkabilmektedir ( Simmons, Nelson ve Simonsohn, 2011 ).

; (Bazen şüpheli bir araştırma uygulama olarak bilinir serbestlik araştırmacı derece uygunsuz kullanımı dikkat etmek önemlidir Martinson, Anderson, & de Vries, 2005 ise) değil veriyi oluşturan aynı. Bazı durumlarda, aykırı değerlerin hariç tutulması, ekipmanın arızalanması veya başka bir nedenden dolayı yapılması gereken doğru şeydir. Kilit nokta, araştırmacıların serbestlik derecelerinin varlığında analiz sırasında alınan kararların genellikle verilerin nasıl ortaya çıktığına bağlı olmasıdır ( Gelman ve Loken, 2014).), söz konusu araştırmacılar bu gerçeğin farkında olmasalar bile. Araştırmacılar, önemli bir sonucun olasılığını arttırmak için (belki de önemli sonuçlar daha "açıklanabilir" olduğu için) araştırmacıların serbestlik derecelerini (bilinçli ya da bilinçsiz) kullandıkları sürece, araştırmacıların serbestlik derecelerinin varlığı, araştırma literatürünü yanlış pozitiflerle doldurur. yayın yanlılığı ile aynı şekilde.


Yukarıdaki tartışmanın önemli bir uyarısı, bilimsel makalelerin (en azından benim alanım olan psikolojideki) nadiren tek sonuçlardan oluşmasıdır. Daha yaygın olanı, her biri birden fazla test içeren çok sayıda çalışmadır - vurgu, daha geniş bir argüman oluşturmak ve sunulan kanıtlar için alternatif açıklamaları dışlamaktır. Ancak, sonuçların seçici bir şekilde sunulması (ya da araştırmacı serbestlik derecelerinin varlığı), tek bir sonuç kadar kolay bir şekilde bir dizi sonuçta önyargı üretebilir. Çok çalışmalı çalışmalarda sunulan sonuçların, bu çalışmaların tüm tahminleri doğru olsa bile, beklenenden çok daha temiz ve daha güçlü olduğuna dair kanıt vardır ( Francis, 2013 ).


Sonuç

Temel olarak, boş hipotez anlamlılık testinin yanlış gidebileceği konusundaki sezgilerinize katılıyorum. Ancak, yüksek oranda yanlış pozitif üreten gerçek suçluların yayın yanlılığı ve araştırmacıların serbestlik derecelerinin varlığı gibi süreçler olduğunu savunuyorum. Aslında, birçok bilim adamı bu sorunların farkındadır ve bilimsel yeniden üretilebilirliği arttırmak çok aktif bir tartışma konusudur (örneğin, Nosek ve Bar-Anan, 2012 ; Nosek, Spies ve Motyl, 2012 ). Demek endişelerinizle iyi bir ilişki içindesiniz ama aynı zamanda temkinli iyimserliğin de nedenleri olduğunu düşünüyorum.


Referanslar

Stern, JM, & Simes, RJ (1997). Yayın önyargısı: Klinik araştırma projeleri kohort çalışmasında gecikmiş yayın kanıtı. BMJ, 315 (7109), 640-645. http://doi.org/10.1136/bmj.315.7109.640

Dwan, K., Altman, DG, Arnaiz, JA, Bloom, J., Chan, A., Cronin, E.,… Williamson, PR (2008). Çalışma yayın yanlılığı ve sonuç raporlama yanlılığının ampirik kanıtlarının sistematik olarak gözden geçirilmesi. BİLEŞENLER BİR, 3 (8), e3081. http://doi.org/10.1371/journal.pone.0003081

Rosenthal, R. (1979). Dosya çekmecesi sorunu ve boş sonuçlar için tolerans. Psikolojik Bülten, 86 (3), 638-641. http://doi.org/10.1037/0033-2909.86.3.638

Simmons, JP, Nelson, LD, ve Simonsohn, U. (2011). Yanlış-pozitif psikoloji: Veri toplama ve analizinde açıklanmayan esneklik, önemli olan her şeyi sunmaya izin verir. Psikolojik Bilimler, 22 (11), 1359–1366. http://doi.org/10.1177/0956797611417632

Martinson, BC, Anderson, MS ve de Vries, R. (2005). Bilim adamları kötü davranıyor. Nature, 435, 737-738. http://doi.org/10.1038/435737a

Gelman, A. ve Loken, E. (2014). Bilimde istatistiksel kriz. Amerikalı Bilim Adamı, 102, 460-465.

Francis, G. (2013). Çoğaltma, istatistiksel tutarlılık ve yayın önyargısı. Matematiksel Psikoloji Dergisi, 57 (5), 153–169. http://doi.org/10.1016/j.jmp.2013.02.003

Nosek, BA ve Bar-Anan, Y. (2012). Bilimsel ütopya: I. Bilimsel iletişimin açılması. Psikolojik Sorgulama, 23 (3), 217–243. http://doi.org/10.1080/1047840X.2012.692215

Nosek, BA, Spies, JR ve Motyl, M. (2012). Bilimsel ütopya: II. Yayınlanabilirlik üzerine gerçeği teşvik etmek için teşviklerin ve uygulamaların yeniden yapılandırılması. Psikolojik Bilime Bakış Açıları, 7 (6), 615-631. http://doi.org/10.1177/1745691612459058


1
+1. Bağlantıların güzel bir koleksiyon. "Araştırmacı serbestlik dereceleri" bölümünüz için çok alakalı bir makale: Çatallı yolların bahçesi: Neden "balıkçılık gezisi" veya "p-hack" olmasa ve araştırma hipotezi olsa bile, çoklu karşılaştırmalar neden sorun olabilir? Andrew Gelman ve Eric Loken'in (2013) vaktinden önce görevlendirdiler.
amip

Teşekkürler, @amoeba, bu ilginç referans için. Özellikle Gelman ve Loken'in (2013) araştırmacı serbestliği derecelerinden faydalanmanın bilinçli bir süreç olması gerekmediği noktasını sevdim. Cevabımı bu makaleyi içerecek şekilde değiştirdim.
Patrick S. Forscher

Amerikan Bilim Adamı'nda yayınlanan Gelman ve Loken'in (2014) sürümünü buldum.
Patrick S. Forscher

10

Bu soruda ortaya çıkan önemli konuyla ilgili önemli bir kontrol, "bilimsel gerçeğin" bireysel ve yalıtılmış yayınlara dayanmadığıdır. Bir sonuç yeterince ilginçse, diğer bilim insanlarını sonucun sonuçlarını takip etmeye zorlayacaktır. Bu çalışma orijinal bulguyu onaylama veya reddetme eğiliminde olacaktır. Bireysel bir çalışmada gerçek bir boş hipotezi reddetme şansı 1/20 olabilir, ancak art arda iki kez bunu yapma şansının 1 / 400'ü.

Bilim adamları basitçe "önem" bulana kadar deneyleri tekrarladılar ve ardından sonuçlarını yayınladılarsa, sorun OP'nin önerdiği kadar büyük olabilir. Fakat bu, bilimin nasıl çalıştığını değil, en azından biyomedikal araştırmalardaki yaklaşık 50 yıllık deneyimimde. Ayrıca, bir yayın nadiren tek bir "önemli" deney hakkındadır, ancak bunun yerine, birlikte daha geniş kapsamlı bir hipotez için destek sağlayan bir dizi ilişkili deney (her biri kendi başına "anlamlı" olması gerekir) üzerine kuruludur.

Çok daha büyük bir problem, kendi hipotezlerine çok bağlı olan bilim insanlarından geliyor. Daha sonra, kendi deneylerini kendi hipotezlerini destekleme, şüpheli veri düzenlemelerine (keyfi ayraçları kaldırma gibi) ya da (gördüğüm ve yakalamaya yardımcı olduğum gibi) yalnızca yorum yapmanın etkilerini aşırı yorumlayabilirler.

Bununla birlikte, bilim, fildişi kulelerde yükselen çılgın bilim adamları hakkındaki mitolojiden bağımsız olarak oldukça sosyal bir süreçtir. Başkalarının çalışmalarından öğrendiklerine dayanarak çıkarlarını peşinde koşan binlerce bilim insanının alması ve alması, yanlış pozitiflerden nihai kurumsal korumadır. Yanlış bulgular bazen yıllarca devam edebilir, ancak bir konu yeterince önemliyse, süreç sonunda hatalı sonuçları belirleyecektir.


6
1/400040

2
23M çalışmalarından 5.000'inin sonuçlarının sadece gürültü nedeniyle sıfır hipotezini reddetip reddetmediğini hala söyleyemedik, değil mi? Bu da gerçekten bir ölçek sorunudur. Milyonlarca araştırmanızın ardından tip 1 hatası yaygın olacaktır.
n_mu_sigma

3
23.000.000 çalışmadan yalnızca 5000 hatalı sonuç olsaydı, buna nadiren rastlardım!
whuber

3
Bilim ve diğer bilim insanlarını tanımak için yaklaşık 50 yıldır, "anlamlılık" elde edinceye kadar deneyleri tekrar eden hiç kimseyi düşünemiyorum. @Whuber tarafından ortaya atılan teorik olasılık, benim deneyimime göre, büyük bir pratik sorun değil. En büyük pratik problem, veriyi ya dolaylı olarak, bir önyargıya uymayan "aykırı noktaları" atarak ya da sadece başlamak için "veri" yi yaparak. Bu davranışları ilk elden gördüm ve p -değerlerini ayarlayarak düzeltilemezler .
EdM

3
@EdM "Bireysel bir çalışmada gerçek bir boş hipotezi reddetme şansı 1/20 olabilir, ancak bunu arka arkaya iki kez yapmanın sadece 1 / 4000'i." İkinci numarayı nasıl aldın?
Aksakal,

5

Sadece tartışmaya eklemek için, burada ilginç bir yazı ve insanların p-değerini nasıl yanlış anladıkları hakkında bir tartışma yer almaktadır.

Her durumda tutulması gereken, bir p değerinin verilen bir hipotezi reddetmedeki kanıtların gücünün bir ölçüsü olduğudur. Bir p değeri kesinlikle altında bir şeyin "doğru" olduğu ve üzerinde sadece şanstan kaynaklandığı sert bir eşik değildir. Yukarıda belirtilen gönderide açıklandığı gibi:

sonuçlar gerçek etkilerin ve şansın bir birleşimidir, ya / ya


belki bu p-değerlerin anlaşılmasına katkıda bulunacaktır: stats.stackexchange.com/questions/166323/…

4

Diğer cevaplarda da belirtildiği gibi, bu yalnızca boş hipotezin göz ardı edildiği pozitif sonuçları seçerek düşünecekseniz sorunlara neden olacaktır. Bu nedenle bilim insanları daha önce yayınlanmış araştırma sonuçlarını düşündükleri bir inceleme makalesi yazıyorlar ve buna dayanarak konuyu daha iyi anlamaya çalışıyorlar. Ancak, o zaman hala sözde "yayın yanlılığı" nedeniyle bir sorun kalmaktadır, yani bilim insanlarının olumsuz bir sonuçtan daha olumlu bir sonuç hakkında bir makale yazması daha muhtemeldir; Olumlu bir sonuçtan bir bildiri yerine yayın için reddedilme olasılığı daha yüksektir.

Özellikle istatistiksel testin çok önemli olduğu alanlarda bu büyük bir problem olacak, tıp alanı meşhur bir örnek. Bu nedenle klinik denemelerin yapılmadan önce kaydedilmeleri zorunlu hale getirildi (örneğin burada ). Bu yüzden, denemeye başlamadan önce kurulumu, istatistiksel analizin nasıl yapılacağını vb. Önde gelen tıbbi dergiler, kayıt edilmediği yerdeki raporları yazdıkları takdirde bildiri yayınlamayı reddedecektir.

Ne yazık ki, bu ölçüme rağmen, sistem bu kadar iyi çalışmıyor .


belki bu p-değerlerin anlaşılmasına katkıda bulunacaktır: stats.stackexchange.com/questions/166323/…

3

Bu, bilimsel yöntem hakkında çok önemli bir gerçeğe yakındır: yanlışlanabilirliği vurgulamaktadır. Günümüzde en popüler olan bilim felsefesi Karl Popper'in köşe taşı olarak yanlışlanabilirlik kavramına sahiptir .

Bu nedenle temel bilimsel süreç:

  • Herkes istediği herhangi bir teoriyi istediği zaman talep edebilir. Bilim, "yanlışlanabilen" herhangi bir teoriyi kabul edecek. Bu kelimenin en gerçek anlamı, eğer bir başkası iddiayı beğenmiyorsa, o kişinin bu iddiayı doğrulamak için kaynakları harcamakta serbest olduğu yönündedir. Argyle çoraplarının kanseri tedavi ettiğini düşünmüyorsanız, kanıtlamak için kendi tıbbi koğuşunuzu kullanmakta özgürsünüz.

  • Giriş için bu bar anıtsal olarak düşük olduğundan, bir kültürel grup olarak "Bilim" in kendi teorinizi yanlışlamak için "iyi bir çaba" yapana kadar hiçbir fikri eğlendirmemesi gelenekseldir.

  • Fikirlerin kabulü aşama aşama eğilimindedir. Konseptinizi tek bir çalışma ve oldukça düşük bir p değeri ile birlikte bir dergi makalesine sokabilirsiniz. Bunun sizi satın alması tanıtım ve biraz güvenilirlik. Eğer biliminizde mühendislik uygulamaları varsa, sizin fikrinizle ilgilenen biri varsa, kullanmak isteyebilirler. O zaman, ilave bir tahrifat turu finanse etme olasılığı daha yüksektir.

  • Bu süreç her zaman aynı tavırla ilerler: ne istediğine inan, ama bilim olarak adlandırmak için daha sonra ispatlayabilmeliyim.

Giriş için bu düşük çubuk, bu kadar inovatif olmasına izin veriyor. Yani evet, çok sayıda teorik olarak "yanlış" dergi makalesi var. Bununla birlikte, kilit nokta, yayınlanmış her makalenin teoride yanlışlanabilir olmasıdır, bu nedenle herhangi bir zamanda birileri parayı test etmek için harcayabilir.

Anahtar bu: dergiler sadece makul bir sınavdan geçen şeyleri değil, aynı zamanda eğer sonuçların yanlış olduğu ortaya çıkarsa başkalarının da çözmelerini sağlayacak anahtarlar içerir.


1
Bu çok idealist. Bazı insanlar, çok fazla yanlış makalenin literatürde çok düşük sinyal-gürültü oranı yaratabileceği ve bilimsel süreci ciddi biçimde yavaşlatacağı veya yanlış yönlendirebileceğinden endişe duyuyor.
amip,

1
@ amoeba İyi bir noktaya değindin. Kesinlikle ideal vakayı yakalamak istedim çünkü gürültünün kaybolduğunu gördüm. Bunun ötesinde, literatürdeki SNR sorusunun geçerli bir soru olduğunu düşünüyorum, ama en azından dengelenmesi gereken bir soru. Zayıf dergilere karşı iyi dergiler zaten var, bu yüzden dengeleyici hareketin bir süredir devam ettiğine dair bazı ipuçları var.
Cort Ammon

Bilim felsefesinin bu kavramının, onlarca yıldan eski olduğu görülmektedir. Popperian yanlışlanabilirliği, bilimin nasıl gerçekleştiğine dair ortak bir şehir efsanesi olma anlamında sadece "popüler" .
EnergyNumbers

@EnergyNumbers Beni yeni düşünme tarzında aydınlatabilir misiniz? SE felsefesinin sizinkinden çok farklı bir görüşü var. Oraya soru tarihine bakarsak, Poppercı yanlışlanabilirlik olduğunu seslerini konuştu olanların çoğunluğu için bilimin belirleyici özelliğidir. Daha yeni bir düşünme tarzı öğrenmeyi ve oraya getirmeyi çok isterim!
Cort Ammon

Yeni? Kuhn, Popper'ı yıllar önce reddetti. Felsefe.se hakkında Popperian sonrası kimseye sahip değilseniz, o zaman bunu güncellemek kaybolmuş bir neden gibi görünüyor - sadece 1950'lerde bırakın. Kendinizi güncellemek istiyorsanız, o zaman 21. yüzyılda bilim felsefesi üzerine herhangi bir lisans sınıfına başlamanız gerekir.
EnergyNumbers

1

Bu nasıl "bilim" çalışması gerekiyordu?

Birçok sosyal bilimler böyle işler. Fiziksel bilimler ile pek bir şey yok. Bunu düşünün: sorunuzu bir bilgisayara yazdınız. İnsanlar fizik, kimya ve diğer fizik bilimleri alanlarını kullanarak bilgisayar denilen bu karmaşık canavarları inşa edebildiler. Durum tarif ettiğiniz kadar kötü olsaydı, elektroniklerin hiçbiri işe yaramazdı. Ya da delicesine kesin olarak bilinen bir elektron kütlesi gibi şeyleri düşünün. Bir bilgisayarda milyarlarca mantık geçidini geçiyorlar ve bilgisayarınız hala yıllarca çalışıyor ve çalışıyor.

GÜNCELLEME: Aldığım aşağı oylara cevap vermek için, size birkaç örnek vermekten ilham aldım.

Birincisi fizikten: Bystritsky, VM ve ark. " Astrofiziksel S faktörlerinin ve p (d, γ) 3He tepkimesinin ölçülmesi, bir zirkonyum deuteride hedefi kullanılarak ultra hafif enerji bölgesinde reaksiyona girer ." Parçacıklar ve Çekirdek Mektuplarının Fiziği 10.7 (2013): 717-722.

0.237±0.061

Bir sonraki örneğim ... psikolojiden: Paustian-Underdahl, Samantha C., Lisa Slattery Walker ve David J. Woehr. " Toplumsal cinsiyet ve liderlik etkinliği algıları: Bağlamsal denetleyicilerin meta analizi ." Uygulamalı Psikoloji Dergisi, 2014, Cilt. 99, No. 6, 1129-1145.

χ2

Şimdi, kağıtlardan bazı tablolara bakın ve hangi kağıtlardan olduklarını tahmin edin:

görüntü tanımını buraya girin görüntü tanımını buraya girin

Neden bir durumda "cool" istatistiklere ihtiyacınız var ve diğerinde bunu yapmıyorsunuz: çünkü veriler ya berbat ya da değil. İyi verileriniz olduğunda standart hataların ötesinde çok fazla istatistik gerekmez.

UPDATE2: @ PatrickS.Forscher yorumda ilginç bir açıklama yaptı:

Sosyal bilim teorilerinin fizik teorilerinden "daha yumuşak" (daha az resmi) olduğu da doğrudur.

Katılmıyorum Ekonomi ve Finansta teoriler hiç "yumuşak" değildir. Bu alanlarda rastgele bir kağıt arayabilir ve şöyle bir şey alabilirsiniz:

görüntü tanımını buraya girin

ve bunun gibi.

Schervish, Mark J., Teddy Seidenfeld ve Joseph B. Kadane'den. " Beklenen fayda teorisinin uzantıları ve ikili karşılaştırmaların bazı sınırlamaları ." (2003). Bu sana yumuşak geliyor mu?

Teorileriniz iyi olmadığında ve veriler berbat olduğu zaman, en zorlu matematiği kullanıp hala berbat bir sonuç elde edebileceğiniz konusunu tekrar ediyorum.

Bu yazıda kamu hizmetleri, mutluluk ve memnuniyet gibi kavramlardan bahsediyorlar - kesinlikle gözlemlenemez. Bir çizburger yemek vs bir ev sahip olmanın bir yararı nedir? Muhtemelen, "çizburger yiyin" ya da "kendi evinde yaşa" yı takabileceğiniz bir işlev var ve işlev bazı ünitelerde cevabı patlatacak. Kulağa ne kadar çılgınca gelse de, bu modern ekonomik bilimlerin üzerine kurulu olduğu şeydir, von Neuman'a teşekkürler.


1
+1 Bunun neden iki kez indirildiğinden emin değil. Temel olarak, fizikteki keşiflerin deneylerle denenebileceğini ve sosyal bilimlerdeki çoğu "keşiflerin" olamayacağına ve bu da medyanın dikkatini çekmelerini engellemediğine işaret ediyorsunuz.
Flounderer

6
Sonuçta çoğu deney, bir tür istatistiksel test içerir ve hala tip 1 hatalara ve p-değer avcılığı gibi kötü davranışlara yer açar. Sosyal bilimleri seçmenin biraz kapalı olduğunu düşünüyorum.
Kenji,

4
@GuilhermeKenjiChihaya'nın söylediklerini biraz değiştirmek için, hataların standart sapması muhtemelen fiziksel deneylerde istatistiksel bir test yapmak için kullanılabilir. Muhtemelen bu istatistiksel test, yazarların, grafiği, hata çubuğuyla görüntülerken elde ettikleri sonucun aynısı olur. Fizik makaleleri ile temel fark, o zaman, deneydeki temel gürültü miktarıdır; p değerlerinin kullanımının altında yatan mantık geçerli veya geçersiz.
Patrick S. Forscher

3
Ayrıca, @Flounderer, "deneme" terimini, bilmediğim bir anlamda kullanıyor gibi görünüyorsunuz, çünkü sosyal bilimciler her zaman "deneyler" yapıyorlar (yani, birimlerin koşullara randomizasyonu). Sosyal bilimler deneylerinin fizik deneylerinde olduğu gibi kontrol edilmesi zor olduğu doğrudur. Sosyal bilim teorilerinin fizik teorilerinden "daha yumuşak" (daha az resmi) olduğu da doğrudur. Ancak bu faktörler verilen bir çalışmanın bir "deneme" olup olmamasından bağımsızdır.
Patrick S. Forscher

2
@Aksakal -1 ile aynı fikirde değilken, kısmen sosyal bilimler eleştirinize de katılmıyorum. İktisat bildiri örneğiniz aynı zamanda sosyal bilimcilerin günlük olarak ne yaptıklarına iyi bir örnek değildir, çünkü fayda teorisi kesinlikle ekonomik / matematiksel / istatistiksel bir kavramdır (zaten içinde matematik vardır) ve örneğin psikolojik teorilere benzememektedir. deneysel olarak test edilir ... Bununla birlikte, istatistiklerin sosyal bilimler de dahil olmak üzere pek çok araştırma alanında gevşek bir şekilde kullanıldığı durumunun katılıyorum.
Tim
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.