Bireysel bir araştırmacı sahte keşif oranını nasıl düşünmelidir?


30

Yanlış Keşif Hızı'nın (FDR) bireysel araştırmacıların sonuçlarını nasıl bilgilendirmesi gerektiği konusunda kafamı sarmaya çalışıyorum. Örneğin, çalışmanızın gücü yetersizse, sonuçlarınızı düzeyinde anlamlı olsalar bile misiniz? Not: Birden fazla test düzeltmesi için bir yöntem olarak değil , birden fazla çalışmanın sonuçlarını toplu olarak incelemek bağlamında FDR'den bahsediyorum .α=.05

Test edilen hipotezlerin " in (belki cömert) varsayımını gerçekten doğru yaptığına göre, FDR hem tip I hem de tip II hata oranlarının bir fonksiyonudur:.5

FDR=αα+1β.

Bir çalışma yeterince güçlenmemişse , yeterince güçlü bir çalışmanın yaptığı kadar önemli olsa bile sonuçlara güvenmemeliyiz. Bu nedenle, bazı istatistikçilerin söyleyeceği gibi, "uzun vadede" geleneksel kuralları izlersek yanlış olan birçok önemli sonucu yayınlayabileceğimiz koşullar vardır. Araştırmanın bir vücut sürekli yeterince güçlü çalışmalarda (örneğin aday gen ile karakterize edilirse çevre etkileşimi önceki on yılın literatür ), hatta çoğaltılmış önemli bulgular şüpheli olabilir.×

R paketleri uygulamak extrafont, ggplot2ve xkcd, bu yararlı bir conceptualized düşünüyorum perspektifin sorunu: Önemli bir sonuç ...

Pek emin değilim...

Bu bilgi göz önüne alındığında, bireysel bir araştırmacı daha sonra ne yapmalı ? Çalıştığım etkinin büyüklüğünün ne olacağını tahmin edersem (ve bu nedenle , örnek büyüklüğümü verilen tahmini ), düzeyimi FDR = 0,05'e kadar mı ayarlamalıyım ? Çalışmalarım güçlense ve FDR'yi literatürün tüketicilerine bırakmış olsam da sonuçları düzeyinde yayınlamalı mıyım ?1βαα=.05

Bunun hem bu sitede hem de istatistik literatüründe sıkça tartışılan bir konu olduğunu biliyorum, ancak bu konuda görüş birliği bulamıyorum.


EDIT: @ amoeba'nın yorumuna cevap olarak, FDR standart tip I / tip II hata oranı acil durum tablosundan türetilebilir (çirkinliğinden dolayı):

|                            |Finding is significant |Finding is insignificant |
|:---------------------------|:----------------------|:------------------------|
|Finding is false in reality |alpha                  |1 - alpha                |
|Finding is true in reality  |1 - beta               |beta                     |

Bu yüzden, eğer önemli bir bulgu (sütun 1) ile sunuluyorsa, gerçekte yanlış olma ihtimali, sütun toplamı üzerinde alfadır.

Fakat evet, çalışma gücü hala bir rol oynamasına rağmen, belirli bir hipotezin doğru olma olasılığını yansıtması için FDR tanımımızı değiştirebiliriz :(1β)

FDR=α(1prior)α(1prior)+(1β)prior

Sorunuza kesin bir cevap vermeyebilir, ancak bu metinde ilham bulabilirsiniz .
JohnRos

1
David Colquhoun'un bağlantı verdiğiniz makalesi, son zamanlarda burada tartışıldı (@DavidColquhoun tartışmaya katılarak), bir göz atmak isteyebilirsiniz.
amip diyor Reinstate Monica,

2
αβ

2
p=0.5pp=0prior=11

1
α

Yanıtlar:


6

p

Bunun yerine, tüm çalışmaların erişilebilir olması, güç seviyelerine veya önemli sonuçlara aldırmadan önemlidir. Aslında, yalnızca önemli ve önemli olmayan önemli sonuçları yayınlama kötü alışkanlığı, yayın yanlılığına yol açmakta ve genel bilimsel sonuçların kaydını bozmaktadır.

Bu nedenle, bireysel araştırmacı, çalışmayı tekrarlanabilir bir şekilde yürütmeli, tüm kayıtları tutmalı ve bu ayrıntıları yayınlayan dergilerden sorulmasa bile tüm deneysel prosedürleri kaydetmelidir. Düşük güç konusunda fazla endişelenmemeli. Bilgilendirici olmayan bir sonuç bile (= boş hipotez reddedilmedi) bile, verilerin kendisinin yeterli kalitede olması şartıyla, daha ileri çalışmalar için daha fazla tahminci ekler.

ppp


Horst, sorulenden farklı bir soruya cevap veriyor gibi görünüyorsun.
Alexis,

1
Sorunun içinde olmayan çalışmalar arasında FDR ile ilgili olduğuna dikkat edin. Bu, kabul edilebilir bir genel doğru karar oranına sahip olmak için bir çeşit bayes yaklaşımını içerir. Benim cevabım, genel bir yargılamanın çalışma verilerini bir araya getirerek yapıldığını ve kararların değil tahminlerin yapıldığını vurguladığını vurguluyor, bu nedenle konu, tek çalışmaların verileri (kararlar değil) güvenilir olduğu sürece büyük bir "sanal çalışma" oluşturarak çözülüyor.
Horst Grünbusch

6

αα=.05

α

p<0.05p0.05pp0.05p- değer tekrar küçük olurdu).

α


5

Bu aslında derin bir felsefi sorudur. Ben kendim bir araştırmacıyım ve bunun hakkında bir süre düşündüm. Ancak bir cevaptan önce, tam olarak yanlış keşif oranının ne olduğunu gözden geçirelim.

FDR'ye karşı P P, sadece hiçbir fark olmadığı ve gücü hesaba katmadığı zaman, bir fark olduğunu söyleme olasılığının bir ölçüsüdür. Öte yandan, FDR gücü hesaba katar. Bununla birlikte, FDR'yi hesaplamak için bir varsayımda bulunmak zorundayız: gerçek bir pozitif sonuç alma ihtimalimiz nedir? Bu, çok tartışmalı koşullar dışında asla erişemeyeceğimiz bir şey. Aslında son zamanlarda konuştuğum bir seminer sırasında konuştum. Slaytları burada bulabilirsiniz .

İşte David Colquhoun'un konuyla ilgili makalesinden bir rakam :

Calquhoun 2014

Sahte keşif oranı, hatalı pozitif sayısını, gerçek pozitiflerin ve hatalı pozitiflerin toplamına bölerek hesaplanır (örnekte, 495 / (80 + 495) x 100% =% 86!

P biraz daha fazla

Dersimdeki slaytlara yakından bak. P değerlerinin bir dağılımdan alındığı gerçeğini tartıştım. Bu, her zaman yanlış bir pozitif bulma şansınız olacağı anlamına gelir. Bu yüzden istatistiksel anlamlılık mutlak gerçek olarak düşünülmemelidir. İstatistiki olarak önemli olan bir şeyin "Hey, burada ilginç bir şeyler olabilir, emin değilim, birisi çifte kontrole gidelim!" Şeklinde yorumlanması gerektiğini savunuyorum. Dolayısıyla, araştırmada tekrarlanabilirliğin temel kavramı!

Peki ne yapıyoruz? Eh, yukarıdaki rakam ve P ve FDR'lerin analizine ilişkin ilginç bir nokta, net bir anlayış elde edebilmemizin tek yolunun 1) tekrarlanabilirlik ve 2) tüm sonuçları yayınlamaktır. Bu olumsuz sonuçları içerir (olumsuz sonuçların yorumlanması zor olsa da). Ancak, sonuçlarımızdan çıkardığımız sonuçlar uygun olmalıdır. Ne yazık ki, birçok okuyucu ve araştırmacı P ve FDR kavramlarını tam olarak anlamamaktadır. Sonuçları uygun bir şekilde analiz etmenin okuyucuların sorumluluğuna inanıyorum ... bu, yükün sonunda eğitimcilerin omuzlarında olduğu anlamına geliyor. Sonuçta, "prevalans" (yukarıdaki şekle bakınız) 0 ise (bu durumda, yanlış keşif oranı% 100), 0.000000001 değerinde bir P değeri anlamsızdır.

Bir yayıncılık araştırmacısı olarak, sonuçlarınızı tam olarak anlamak ve sadece istediğiniz kadar güçlü iddialarda bulunmak için dikkatli olun. Özel çalışmanız için FDR'nin% 86 olduğu ortaya çıkarsa (yukarıdaki örnekte olduğu gibi), yorumlarınız konusunda çok dikkatli olmalısınız. Öte yandan, eğer FDR rahatınız için yeterince küçükse .... yine de yorumlarınıza dikkat edin.

Umarım buradaki her şey açıktı. Bu çok önemli bir kavram ve tartışmaya katılmanıza sevindim. Herhangi bir sorunuz / endişeniz / vb varsa bana bildirin.


1
@Alexis Güçlenmiş bir çalışma diye bir şey yoktur! Etki büyüklüğü farkedildiği sürece, daha büyük örneklem büyüklüğünde bir çalışma yaparak etkinin büyüklüğünü daha yakından tanımlayabilmenin zararı yoktur. “Aşırı güç” kavramı bana, gözlemlenen verilere bakmadan P değerine bakmaktan yararlı çıkarımlar yapabilen boş görüşe bağlı görünüyor.
Michael Lew,

1
@MichaelLew: Tahmini efekt boyutunu p-değeriyle birlikte her zaman göz önünde bulundurursanız, aşırı güçlendirme sorununun (kısmen) çözülebileceği konusunda haklısınız. Bununla birlikte, bu, p-değerlerinin amacını biraz yitirir: Etki tahmincisini, tip I hata oranının koorekt olacağı şekilde "mevcut / mevcut olmayan efekt" ikili test sonuçlarına eşlemek. Ayrıca, ilgili etki büyüklüğünün ne olabileceği konusundaki kararınız, p-değerini gördüğünüzde değişebilir. Bu yüzden, Alexis'in önerdiği gibi, konuyla ilgili bir etki aralığını önceden belirleyerek ve daha sonra çalışmayı CI ile karşılaştırarak ele almak en iyisidir.
Horst Grünbusch

1
@MichaelLew Gerçekten boş bir hipotez değerinin var olabileceğini varsayıyorsunuz . Bu budurθsıfıra çok yakın bir değer aralığının aksine, aslında tam olarak sıfıra eşit olabilir . Sık sık yapılan testler, tarif edilen bağlantılı sorunun OP'si olarak, neredeyse sıfır önemli bir önlem olarak ele alınmasına karşı gerçekten önyargılıdır . Bu kargaşanın tek çözümü (sıkça yapılan testler dahilinde), ilgili olarak büyük olan etki büyüklüklerini açıkça ele almaktır . Ve eğer yanılıyorsam, çok iyi bir şirketim var . : D
Alexis

1
Bir dereceye kadar ... Araştırma tasarımı mantığı ve bilimsel bilgi üretme ontolojisi hakkında konuşurken, kesinlikle istatistiksel çıkarsamadan bahsediyordum. Bununla birlikte, protokol vb. Kadar dikkatle yorumlanmayan pozitif bulguların negatif bulgular kadar sahte olmaları gerektiğini düşünüyorum. Evrendeki fenomenlerin hepsi izolasyonlu olarak çalışmaya uygun değildir (örneğin, hem bireysel hem de popülasyon sağlığı aynı anda kimyasal, sosyal, davranışsal vb.) Ve bu nedenle ontolojik belirsizlikler bu tür karmaşık sistemlerin çalışmalarına eşlik etmelidir.
Alexis

2
@ HorstGrünbusch Orijinal soruyu hibrit bağlamda ayarlanmış olarak görmüyorum, alfa ve beta ile ilgilidir, P değerleri ile değil. Bununla birlikte, justanotherbrain'in cevabı kesinlikle sadece Neyman ve Pearson çerçevesine ya da önem testi çerçevesine yerleştirmek için tekrar çalışmaya özen göstermelidir. Yanlış keşif oranları gerçekten yalnızca eskisine aittir.
Michael Lew

3

To help understand the relationships, I created this graph of FDR as a function of prior probability for various powers (with alpha=0.05). Note this graph, and the equation of @Buckminster computes the FDR for all results with P less than alpha. The graph would look different if you only considered P values very close to the P value you happened to observe in one study.


2
and here's a Shiny app version (a little different though): buckminster.shinyapps.io/FalseDiscoveryRate
Richard Border

1

Yayını önermek bir karardır. Bu kararla ilgili fayda ve maliyetlerin ne olduğunu incelemenin faydalı olacağını düşünüyorum.

1) Akademik çevre, evrensel olarak daha fazla yayın yapması için araştırmacıları zorlar, çeşitli yayın sıralamasının da bu kaydı etkileyeceğini düşünüyordu. Daha prestijli dergilerin daha sağlam kalite kontrolüne sahip olabileceğini varsayabiliriz (umarım).

2) Çok büyük yayın üretimi ile ilgili sosyal maliyetler olabilir. Bu kaynaklar, sonuçların yayınlanmadığı uygulamalı araştırmalarda olduğu gibi başka bir yerde daha iyi kullanılabilir. Son zamanlarda, çok sayıda yeni yayın çok büyük olduğundan, birçok yayının kaynak olarak önemli olmadığı bir yayın vardı ... :)

http://arxiv.org/pdf/1503.01881v1.pdf

For the individual researcher number one forces to publish more and I think there should be institutionalized quality checks which are not dependent on individual peoples to keep quality at accepted level.

In any case your parameter values are not facts, these must be given values by the consideration of various costs and benefits associated with number of results published when results are truly and/or falsely significant.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.