Yanlış keşif oranı ve çoklu testlerle karışıklık (Colquhoun 2014'te)


19

David Colquhoun'un bu büyük makalesini okudum: Yanlış keşif oranı ve p değerlerinin yanlış yorumlanması üzerine bir araştırma (2014). Özünde, ile tip I hatası kontrol etsek de yanlış keşif oranının (FDR) neden kadar yüksek olabileceğini açıklıyor .30%α=0.05

Bununla birlikte, çoklu test durumunda FDR kontrolünü uygularsam ne olacağı konusunda hala kafam karıştı.

Pek çok değişkenin her biri için bir test yaptım ve -değerlerini Benjamini-Hochberg prosedürünü kullanarak hesapladım . ile anlamlı olan bir değişkenim var . Bu bulgu için FDR'nin ne olduğunu soruyorum.qq=0.049

Benjamini-Hochberg kullandığım için uzun vadede düzenli olarak böyle bir analiz yaparsam FDR'nin değil altında olduğunu varsayabilir miyim ? Bu yanlış geliyor, değerinin Colquhoun'un makalesindeki değerine karşılık geldiğini ve bunun gerekçelerinin burada da geçerli olduğunu söyleyebilirim , böylece bir eşiği kullanarak "kendimi aptal yerine koyma" riskiyle Colquhoun'e olarak) koyar vakalarının. Ancak bunu daha resmi olarak açıklamaya çalıştım ve başarısız oldum.5 % q p q 0.05 30 %30%5%qpq0.0530%


2
Hey @Ocak, merak ediyorum neden bu kadar büyük bir ödül (250) sunuyorsunuz ve daha sonra ödül vermek ve / veya cevapları kontrol etmek için asla geri dönmüyorsunuz! Umarım iyisindir.
amoeba Reinstate Monica diyor ki

3
İki el yazması bir ton tuğla gibi üzerime düştü ve onu tamamen unuttum.
Ocak

Yanıtlar:


15

Tesadüf eseri bu makaleyi sadece birkaç hafta önce okudum. Colquhoun, sorunu ortaya koyarken bölüm 4'te birden fazla karşılaştırmadan (Benjamini-Hochberg dahil) bahseder, ancak sorunu yeterince netleştirmediğini görüyorum - bu yüzden karışıklığınızı görmekten şaşırmadım.

Fark edilmesi gereken önemli nokta, Colquhoun'un durum hakkında çoklu karşılaştırma ayarlamaları yapmadan konuşmasıdır. Colquhoun'un makalesini bir okuyucunun bakış açısını benimsemek olarak anlayabiliriz: temelde bilimsel literatürü okurken hangi yanlış keşif oranının (FDR) bekleyebileceğini sorar ve bu, çoklu karşılaştırma ayarlamaları yapılmadığında beklenen FDR'nin ne olduğu anlamına gelir. Bir çalışmada, örneğin bir makalede, birden çok istatistiksel test yapılırken çoklu karşılaştırmalar dikkate alınabilir. Ancak hiç kimse makaleler arasında çoklu karşılaştırmalar yapmayı ayarlamıyor .

FDR'yi gerçekten kontrol ediyorsanız, örneğin Benjamini-Hochberg (BH) prosedürünü izleyerek kontrol edilir. Sorun, BH prosedürünün her çalışmada ayrı çalıştırılması, genel FDR kontrolünü garanti etmemesidir.

Ben düzenli olarak bu tür analizler yaparsak güvenle, uzun vadede varsayabiliriz FDR değil altında, ancak 5 % ı Benjamini-Hochberg kullanılan çünkü?30%5%

Hayır. BH prosedürünü her kağıtta, ancak kağıtlarınızın her birinde bağımsız olarak kullanırsanız, BH ile ayarlanan değerlerini normal p değerleri olarak ve Colquhoun'un hala geçerli olduğunu yorumlayabilirsiniz .pp


Genel açıklamalar

100%30%

Kağıdın çoğunlukla makul olduğunu düşünüyorum, ancak bazı iddiaların çok cesur görünmesini sevmiyorum. Özetin ilk cümlesi:

p=0.0530%

Bu çok güçlü bir şekilde formüle edilmiştir ve aslında yanıltıcı olabilir.


Verilmiş, sadece kağıttan oldukça hızlı bir şekilde geçtim, ama bana öyle geliyor ki, aslında sadece büyük örnek boyutlarında sahte efektler bulmanın kolay olduğu iyi bilinen kanaatini yineliyor (örn. Şekil 1). Bu anlamlı olmadığı anlamına gelmez, aksine yazarın sunduğundan farklı (ve daha az cesur bir şekilde ifade edilmiş) bir yoruma sahip olması gerektiğini hissediyorum.
Ryan Simmons

1
@RyanSimmons'ın neden "temelde sadece büyük örnek boyutlarında sahte efektler bulmanın kolay olduğu bilinen kanaatini yinelediğimi" söylediğinden emin değilim. Büyük örnek boyutları ile ilgisi yoktu! Makalenin neden "farklı (ve daha az cesurca belirtilmiş) bir yorum" olması gerektiğini düşündüğünü açıklamaktan memnuniyet duyarım.
David Colquhoun

"Ama hiç kimse makaleler arasında çoklu karşılaştırmalar yapmayı ayarlamıyor. Bunu yapmak da imkansız." Yanlış keşif oranı ayarlamasının ailenin hata oranı ayarlamalarına göre avantajlarından birinin, ikincisinin bir aile tanımı gerektirmesine rağmen, eskisinin keyfi sayıda karşılaştırmada ölçeklenebilir olması olduğunu düşündüm.
Alexis

pαp

Eh, ne tarif kesinlikle değil çoklu karşılaştırma yöntemi. Bununla birlikte, örneğin 5 testte FDR tabanlı ayarlama yöntemleri uygulamak ve daha sonra bu 10 setine 20 tane daha eklemek ve aynı yöntemi tekrar yapmak FDR altındaki ret olasılıklarını korur, ancak bu ret olasılıkları FWER altında değişir. Dunn'un Bonferroni ayarı oldukça dramatik bir örnek.
Alexis

12

Benjamini & Hochberg, yanlış keşif oranını benim yaptığım gibi, pozitif pozitif testlerin oranı olarak tanımlar. Bu nedenle, prosedürlerini çoklu karşılaştırmalar için kullanırsanız, FDR'yi düzgün bir şekilde kontrol edersiniz. Bununla birlikte, BH yönteminde oldukça fazla varyant olduğunu belirtmek gerekir. Benjamini'nin Berkeley'deki seminerleri Youtube'da ve izlemeye değer:

@Amoeba'nın "Bu çok güçlü bir şekilde formüle edildi ve aslında yanıltıcı olabilir" dediğinden emin değilim. Neden böyle düşündüğünü bilmek isterdim. En ikna edici argüman simüle t testlerinden gelir (bölüm 6). Bu, neredeyse herkesin pratikte ne yaptığını taklit eder ve 0.047'ye yakın P'yi gözlemlerseniz ve bir keşif yaptığınızı iddia ederseniz, zamanın en az% 26'sında yanılmış olacağınızı gösterir. Ne yanlış gidebilir?

Tabii ki, bunu minimum olarak tanımlamamalıyım. Gerçek bir etki olma olasılığının% 50 olduğunu varsayarsanız ne olur. Elbette, hipotezlerinizin çoğunun önceden doğru olduğunu varsayarsanız, o zaman% 26'dan daha düşük bir FDR elde edebilirsiniz, ancak varsayım temelinde bir keşif yaptığınız iddiasını selamlayacak komikliği hayal edebiliyor musunuz? sonucunuzun doğru olacağından% 90 emin olabilirsiniz. % 26, 0,5'ten büyük herhangi bir olasılık varsayımının çıkarılmasının makul bir temel olmadığı göz önüne alındığında minimum FDR'dir.

Önsezi test edildiğinde sık sık ayağa kalkmazsa, herhangi bir belirli hipotezin sadece% 10 şansının doğru olması ve bu durumda FDR'nin% 76'lık bir felaket olması iyi olabilir.

Bütün bunların sıfır hipotezine, sıfır fark olduğu (null noktası denir) olduğu koşuluna bağlı olduğu doğrudur. Diğer seçenekler farklı sonuçlar verebilir. Ancak asıl mesele, neredeyse herkesin gerçek hayatta kullandığı şeydir (bunun farkında olmayabilir). Ayrıca null noktası bana kullanmak için tamamen uygun bir şey gibi görünüyor. Bazen gerçek farklılıkların hiçbir zaman tam olarak sıfır olmadığı itiraz edilir. Katılmıyorum. Sonuçlarımızın her iki gruba da aynı tedavilerin verildiği durumdan ayırt edilip edilemeyeceğini söylemek istiyoruz, bu yüzden gerçek fark tam olarak sıfır. Dışarıdaki verilerin bu görünümle uyumlu olmadığına karar verirsek, efekt boyutunu tahmin etmeye devam ederiz. ve bu noktada, etkinin gerçekte olsa da, uygulamada önemli olacak kadar büyük olup olmadığına dair ayrı bir yargıya varıyoruz.Deborah Mayo'nun blogu .


@amoeba Yanıtınız için teşekkürler.

Mayo'nun blogunda tartıştığı şey çoğunlukla Mayo'nun en azından bana neden olduğunu açıklamamış olmasına rağmen benimle aynı fikirde olmamasıdır). Stephen Senn, önceden farklı bir dağıtım önerdiğinizde farklı bir yanıt alabileceğinizi belirtiyor. Bu sadece öznel Bayesliler için ilginç görünüyor.

Her zaman sıfır noktası alan günlük uygulamalarla kesinlikle alakasız. Ve açıkladığım gibi, bu bana çok mantıklı bir şey gibi geliyor.

Birçok profesyonel istatistikçi benimkiyle aynı sonuçlara varmıştır. Sellke & Berger ve Valen Johnson'u (makalemdeki referanslar) deneyin. İddialarım hakkında çok tartışmalı (veya çok orijinal) bir şey yok.

Daha önce 0,5 varsaymakla ilgili diğer hususunuz bana hiç bir varsayım gibi gelmiyor. Yukarıda açıkladığım gibi, 0,5'in üzerindeki her şey pratikte kabul edilemez. Ve 0,5'in altındaki herhangi bir şey yanlış keşif oranını daha da yükseltir (örneğin, önceden 0,1 ise% 76). Bu nedenle,% 26'nın tek bir deneyde P = 0.047 gözlemlerseniz bekleyebileceğiniz minimum yanlış keşif oranı olduğunu söylemek kesinlikle mantıklıdır.


Bu soru hakkında daha fazla düşünüyorum. Benim FDR tanımım Benjamini'ninkiyle aynı - yanlış pozitif testlerin oranı. Ancak oldukça farklı bir soruna, tek bir testin yorumlanmasına uygulanır. Geriye dönüp baktığımda, farklı bir terim seçseydim daha iyi olabilirdi.

Tek bir test durumunda, B&H P değerini değiştirmeden bırakır, bu yüzden terimi kullandığım anlamında yanlış keşif oranı hakkında hiçbir şey söylemez.


es tabii ki haklısın. Benjamini & Hochberg ve çoklu karşılaştırmalar üzerinde çalışan diğer kişiler yalnızca tip 1 hata oranını düzeltmeyi amaçlamaktadır. Böylece "doğru" bir P değeri elde ederler. Diğer P değerleriyle aynı problemlere tabidir. En son makalemde, bu yanlış anlaşılmayı önlemek için adı FDR'den Yanlış Pozitif Risk'e (FPR) değiştirdim.

Bazı hesaplamaları yapmak için bir web uygulaması da yazdık (az sayıda kişinin sağladığımız R komut dosyalarını indirdiğini fark ettikten sonra). Hiç de var https://davidcolquhoun.shinyapps.io/3-calcs-final/ itare hakkında her görüşler hoşgeldin (ilk Notlar sekmesini okuyunuz).

PS Web hesap makinesi şimdi http://fpr-calc.ucl.ac.uk/ Shiny.io yeni bir (kalıcı, umarım) kullanımı kolaydır, ancak kimse aslında uygulamayı kullanıyorsa çok pahalı :-(


Bu tartışmaya geri döndüm, şimdi konuyla ilgili ikinci makalem Royal Society Open Science'da görünmek üzere. Bu yer almaktadır https://www.biorxiv.org/content/early/2017/08/07/144337

İlk makalede yaptığım en büyük hatanın "yanlış keşif oranı (FDR)" terimini kullanmak olduğunu fark ettim. Yeni makalede, çoklu karşılaştırma problemi hakkında hiçbir şey söylemediğimi daha açık hale getiriyorum. Sadece tek bir tarafsız testte gözlemlenen P değerinin nasıl yorumlanacağı sorusuyla ilgileniyorum.

En son versiyonda, karışıklığı azaltma umuduyla, sonucun FDR yerine yanlış pozitif risk (FPR) olma olasılığını ifade ediyorum. Ayrıca ters Bayesci yaklaşımı savunuyorum -% 5'lik bir FPR sağlamak için gerekli olan önceki olasılığı belirtin. P = 0.05'i gözlemlerseniz, bu 0,87'ye gelir. Başka bir deyişle,% 5'lik bir FPR elde etmek için deneyi yapmadan önce gerçek bir etki olduğundan neredeyse (% 87) emin olmanız gerekir (çoğu insanın yanlışlıkla, p = 0.05 anlamına geldiği anlamına gelir).


Sevgili David, CrossValidated'a hoş geldiniz ve katıldığınız için teşekkürler! Orijinal @ Ocak'ın sorusu konusunda hemfikiriz: FDR sadece genel bir BH prosedürü ile kontrol edilebilir; BH her bir kağıda ayrı ayrı uygulanırsa, argümanlarınız hala geçerlidir. Eğer öyleyse, bu orijinal soruyu çözer. "Çok güçlü" formülasyonlarınız hakkındaki yorumumla ilgili olarak: Mayo'nun blogunda 147 yorumu okuduktan sonra, başka bir tartışma başlatmakta tereddüt ediyorum. Yazdığım gibi, çoğunlukla makalenize katılıyorum ve itirazlarım sadece bazı formülasyonlarla ilgiliydi. [devam]
amip Reinstate Monica diyor

1
[...] Özetteki ilk cümle tam olarak burada listelediğiniz nedenlerden ötürü "çok güçlü" dür: örn. Noktanın sıfır olduğunu varsayar ve daha önce 0,5 değerini alır, ancak sanki hiçbir şey kabul etmiyormuş gibi gelir (ama ben kışkırtıcı olmaya çalıştı). Mayo'nun blogunda yapılan büyük tartışma, birçok insanın bu varsayımların gerçek bilimsel uygulama için makul olduğunu kabul etmediğini gösteriyor. Benim de kendi itirazlarım var, ancak bu varsayımların bazı bilimsel alanları doğru bir şekilde tanımlayabileceğini kabul ediyorum . Ve eğer öyleyse, bu alanların büyük bir sorunu var, evet.
amip diyor Reinstate Monica

2

Karışıklığın büyük bir kısmı, burada tersine yaptığı yorumlara rağmen Colquhoun'un FDR'yi Benjamini-Hochberg'in yaptığı gibi tanımlamamasıdır. Colquhoun'un, terimin zaten köklü, farklı bir tanımına sahip olmadığından emin olmak için kontrol etmeden bir terimi madeni para atmaya çalışması talihsiz bir durumdur. Daha da kötüsü, Colquhoun FDR'yi geleneksel FDR'nin sıklıkla yanlış yorumlandığı şekilde tanımladı.

Buradaki cevabında Colquhoun, FDR'yi "yanlış olan pozitif testlerin oranı" olarak tanımlıyor. Bu Benjamini-Hochberg'in FDP olarak tanımladığı şeye benzer (yanlış keşif oranı, yanlış keşif oranı ile karıştırılmamalıdır). Benjamini-Hochberg, FDR'yi FDP'nin BEKLENEN DEĞERİ olarak tanımlıyor; özel testler olmadığında (tüm boş değerler doğru olduğunda FDR'yi FWER'e eşit hale getiren bir koşul) FDP'nin 0 olarak kabul edildiği özel bir şartla ve sıfıra bölme nedeniyle tanımlanamayan değerleri önler).

Karışıklığı önlemek için, Colquhoun belgesindeki ayrıntılar hakkında endişelenmemenizi ve bunun yerine alfa seviyesinin doğrudan önemli testlerin oranına karşılık gelmediği büyük resim noktasını (sayısız başkalarının da yaptığı) kalbine almasını öneriyorum. Tip I hatalarıdır (ister tek bir çalışmada ya da birkaç çalışmada birleştirilmiş önemli testlerden bahsedelim). Bu oran sadece alfaya değil, aynı zamanda güce ve doğru olan test edilmiş sıfır hipotezlerinin oranına da bağlıdır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.