Zamanın başlangıcından beri neden tüm deneylere çoklu hipotez düzeltmeleri uygulanmadı?


24

Yanlış keşif oranını kontrol etmek için tek bir veri setine dayanan deneylere çoklu hipotez testi için Benjamini Hochberg benzeri düzeltmeler uygulamamız gerektiğini biliyoruz, aksi takdirde pozitif sonuç veren tüm deneyler yanlış olabilir.

Ama neden bu aynı prensibi, verilerin nereden geldiğine bakılmaksızın, zamanın başından beri tüm deneylere uygulamıyoruz.

Sonuçta, yayınlanmış bilimsel sonuçların yarısından fazlasının "önemli" olduğu kabul ediliyor ve artık yanlış ve yeniden üretilemez olduğu bilinmektedir ve bunun% 100 kadar kolay olmasının bir nedeni yoktur. Bilim adamları sadece olumlu sonuçlar yayınlamaya meyilli olduklarından, olumsuz sonuçların sayısı hakkında hiçbir fikrimiz yoktur, bu nedenle yayınladığımız şeylerin sadece yanlış pozitif olup olmadığına dair hiçbir fikrimiz yoktur - sıfır hipotezi altında rastgele rastgele tesadüfen yakalanan olumlu sonuçlar. Bu arada, çoklu hipotez test düzeltmelerinin ardındaki matematiğin yalnızca aynı veri setindeki sonuçlara uygulanması gerektiğini ve zamanla elde edilen tüm deneysel sonuçların sonuçlarına uygulanmaması gerektiğini söyleyen hiçbir şey yoktur.

Görünen o ki, bilimin tümü yanlış veya zayıf hipotezlere dayanan büyük bir balık avı yolculuğu haline geldi, peki bunun için nasıl kontrol edebiliriz?

Bugüne kadar yaptığımız tüm deneyler üzerinde çoklu hipotez testleri için herhangi bir düzeltme yapmadan elde edilen bağımsız sonuçlar ise, yanlış keşif oranını nasıl kontrol edebiliriz?

Bu tür bir düzeltme yapmadan yanlış keşif oranını kontrol etmek mümkün müdür ?


2
Kendi sorunuz, meta.stats.stackexchange.com/questions/3049/… geçerlidir. Bu, bazı tartışmalı (bazı durumlarda oldukça abartılı) ifadeleri birkaç büyük soruyla bir araya getirir. Sanırım bu, size verilen tavsiye görüş birliğine aykırıdır.
Nick Cox

3
Üzgünüz, hangi cevaba atıfta bulunduğunuzu bilmiyorum: Burada referans yok. Kapatmak için oy kullanmıyorum, ne de (doğal olarak) insanların cevap vermesini engellemek için herhangi bir isteğim veya gücüm yok. Ancak, örneğin, "zamanın başlangıcı" küçük bir anlamsız abartı örneğidir ve görevinizde birkaç kişi daha vardır. Kendi iyiliği için kışkırtıcı olmak, bu siteyi benim deneyimlerime dayanarak, bu sorunun altında kalmanıza yardımcı olmaz. Okuyucular tarzı maddeden uzaklaştırmak zorundadır.
Nick Cox

3
Davetiniz için teşekkürler, ama hayat kısa. Meta iş parçacığına çapraz referansımın ana nokta olarak durmasına izin vereceğim. Burada esası üzerinde durabilecek veya düşebilecek üslup ve madde hakkındaki görüşümü belirttim.
Nick Cox

9
Eğer bilim yapıyorum, ne kadar yanlış keşifler yaptığınız umrumda değil . Aslında, belirli bir bilimsel iddiada bulunmak için, diğer yanlış keşifleri yaptığım umrumda değil . Bilim yapmıyorsam, bu özel analizde yaptığım diğer yanlış keşifleri bile umursamıyorum - çünkü iki tip hatanın nispi maliyetlerine dayanarak tip I hata oranımı seçersem Zaten ikisi arasındaki değişmeyi seçti ve birden fazla karşılaştırma için düzeltmemesi gerekiyor.
Glen_b -Reinstate Monica

2
Neyse ki diğerleri benimkine benzer ve net bir görüş sunmuşlardır. Ek bir yorum olarak, bilimi (her ne kadar değerli olursa olsun) literatürüyle birleştirmeye karşı tavsiye ediyorum. Literatürün hayal kırıklığına uğramasının birçok yolu vardır: belirsizlik, önemsizlik, mantıksal hatalar, vb. (Bir uyuşturucu denemesi ise, bu büyük bir sorun olabilir.) Yani, endişelenecek çok şey var, ama bilimin mahkum olduğunu sanmıyorum.
Nick Cox

Yanıtlar:


20

Bu tabii ki pratikte yapmak için mutlak bir kabus olabilir, ama yapılması herhalde olurdu: biz İstatistiksel Sultan'ı tayin ve herkes hipotez testi çalıştıran onların ham raporları bu despot için-değerlerine. Bir tür global (kelimenin tam anlamıyla) çoklu karşılaştırma düzeltmesini gerçekleştirir ve düzeltilmiş versiyonlarla cevap verir.p

Bu altın bir bilim ve akıl çağında işe yarar mıydı? Hayır muhtemelen değil.


En bir olduğu gibi hipotezler bir çift, dikkate alarak başlayalım testinde gösterilebilir. İki grubun bazı özelliklerini ölçüyoruz ve bu özellik hakkında iki hipotez arasında ayrım yapmak istiyoruz: Sonlu bir örnekte, gerçekten doğru olsa bile, araçların tam olarak eşit olması muhtemel değildir : ölçüm hatası ve diğer değişkenlik kaynakları, bireysel değerleri etrafa itebilir. Ancak,H 0 :  Gruplar aynı ortalamaya sahiptir. H A :  Grupların farklı araçları var. H 0 H 0t
H0: The groups have the same mean.HA: The groups have different means.
H0H0hipotez bir anlamda "sıkıcı" dır ve araştırmacılar genellikle gerçekte var olmayan gruplar arasında bir fark bulduklarını iddia ettikleri "yanlış bir pozitif" durumdan kaçınmakla ilgilenirler. Bu nedenle, sonuçları yalnızca "boş" hipotezi altında pek görünmüyorsa ve konvansiyonel olarak olasılıksızlık eşiğinin% 5 olarak belirlenmiş olması durumunda "anlamlı" olarak adlandırırız.

Bu tek bir test için geçerlidir. Şimdi, birden fazla test yapmaya karar verdiğinizi ve her biri için yanlışlıkla kabul etme % 5'ini kabul etmeye istekli olduğunuzu varsayalım . Yeterince testle, neredeyse kesin olarak hata yapmaya başlayacaksınız ve birçoğu.H0

Çeşitli çoklu düzeltme yaklaşımları, bireysel testlere katlanmak için zaten seçtiğiniz nominal bir hata oranına geri dönmenize yardımcı olacak şekilde tasarlanmıştır. Bunu biraz farklı şekillerde yaparlar. Bonferroni , Sidak ve Holm prosedürleri gibi Family-Wise Error Rate'i kontrol eden yöntemler "Tek bir testte% 5 hata yapma şansı istediniz, bu yüzden 5'ten fazla olmamanızı sağlayacağız. Tüm testlerinizde hata yapma şansınız% "dedi. Yanlış Bulma Oranını kontrol eden yöntemlerbunun yerine, "Tek bir testle zamanın% 5'ine kadar yanlış olmanız açıkça görülüyor, bu yüzden birden fazla test yaparken" aramalarınızın "% 5'inden fazlasının yanlış olmamasını sağlayacağız" deyin. (Farkı gör?)


Şimdi, şimdiye kadar yapılan tüm hipotez testlerinin ailevi hata oranını kontrol etmeye çalıştığınızı varsayalım . Esasen, hiç boş bir hipotezi <% 5 oranında yanlış bir şekilde reddetme şansı istediğinizi söylüyorsunuz. Bu imkansız bir şekilde katı bir eşik belirledi ve çıkarım etkili bir şekilde işe yaramazdı, ancak daha da acil bir konu var: küresel düzeltmeniz kesinlikle saçma sapan "bileşik hipotezleri" gibi

H1:Drug XYZ changes T-cell count Grapes grow better in some fields Men and women eat different amounts of ice cream

Yanlış Keşif Hızı düzeltmeleri ile sayısal sorun çok ciddi değildir, ancak felsefi olarak hala bir karışıklıktır. Bunun yerine, bir genom araştırması sırasında aday genlerin bir listesi veya bir spektral analiz sırasında bir dizi zaman-frekans kutusu gibi, ilgili testlerin bir “ailesini” tanımlamak mantıklıdır. Ailenizi belirli bir soruya göre uyarlamak, Tip I hatalarınızı direkt olarak yorumlamanıza olanak tanır. Örneğin, kendi genomik verilerinizden FWER düzeltmeli bir p-değerleri setine bakabilir ve "Bu genlerin herhangi birinin yanlış pozitif olma şansı <% 5'tir" diyebilirsiniz. Bu, umursamadığınız konularda umursamadığınız insanlar tarafından yapılan çıkarımları kapsayan berbat bir garantiden çok daha iyidir.

Bunun en önemli yanı, "aile" nin uygun seçiminin tartışmalı ve biraz öznel olmasıdır (Bütün genler bir aile mi yoksa sadece kinazları düşünebilir miyim?) Ama sorununuzdan haberdar olmalı ve kimseye inanmamalıyım. Neredeyse bu kadar geniş kapsamlı aileleri tanımlamayı şiddetle savundu.


Peki ya Bayes?

Bayesian analizi bu soruna tutarlı bir alternatif sunar - eğer Frequentist Tip I / Tip II hata çerçevesinden biraz uzaklaşmaya istekliysen. Her şeyden önce kesin olmayan bazı şeylerle başlıyoruz. Bir şeyi her öğrendiğimizde, bu bilgi bir posterior dağılım üretmek için öncekiyle birleştirilir ve bu da bir sonraki öğrenmede bir öncekine dönüşür. Bu size tutarlı bir güncelleme kuralı verir ve iki hipotez arasındaki Bayes faktörünü hesaplayarak belirli şeyler hakkındaki farklı hipotezleri karşılaştırabilirsiniz. Muhtemelen modelin büyük parçalarını hesaba katabilirdiniz ki bu da bunu özellikle zahmetli yapmaz.

Bayes yöntemlerinin çoklu karşılaştırma düzeltmeleri gerektirmediği konusunda ısrarcı bir belirti var. Maalesef, arka oranlar, sıkça kullanılanlar için bir başka test istatistiğidir (yani Tip I / II hatalarını önemseyen insanlar). Bu tür hataları kontrol eden herhangi bir özel mülkleri yoktur (Neden öyle?) Böylece, geri çekilemez bir bölgeye geri döndünüz, ama belki biraz daha ilkeli bir zeminde.

Bayes karşı argüman biz bilebiliriz odaklanmak gerektiğidir şimdi ve böylece bu hata oranlarının önemli değildir.


Yeniden Üretilebilirlik Üzerine

Yanlış çoklu karşılaştırma-düzeltmenin birçok yanlış / tekrarlanamayan sonucun arkasındaki neden olduğunu öne sürüyor gibi görünüyorsunuz. Benim düşüncem, diğer faktörlerin bir sorun olma ihtimali daha yüksek. Bariz bir şey yayınlama baskısının insanları hipotezlerini gerçekten vurgulayan deneylerden (yani kötü deneysel tasarım) kaçınmasına yol açtığıdır.

Örneğin, [bu deneyde] Amgen (ir (parçası) İnisiyatif tekrarlanabilirlik 6 , bu fareler ilgilenilen genin dışındaki genlerde mutasyonlar olduğu ortaya çıkar. Andrew Gelman da bahsetmek sever Yolları Çatallanan Bahçe , burada Araştırmacılar verilere dayanarak (makul) bir analiz planı seçiyorlar, ancak veriler farklı görünüyorsa başka analizler yapmış olabilirler. Bu, -değerlerini çoklu karşılaştırmalara benzer şekilde şişirir , ancak daha sonra düzeltilmesi daha zordur. Ayrıca bir rol oynayabilir, ancak benim hissim (ve umudum), bunun giderek gelişmekte olduğu yönünde.p


Sağol Matt. "İstatistiksel Sultan" fikrini seviyorum. Yine de, böyle bir düzeltme yapmadan yanlış keşif oranını kontrol etmek mümkün müdür?
Kelvin

9
Ben marka çalışıyordu noktası yaklaşık endişe mantıklı olmamasıdır tüm insan çabalar karşısında Yanlış Keşif Oranı (veya Familywise hata oranı). Bunu yapmak, asla bir şey yapamayacağınız kadar riskten kaçınmanızı gerektirir. Bunun yerine, FDR / FWER'i bireysel deneyler için oldukça düşük tutuyorsunuz ve ilginç / faydalı / etc gibi önemli olan şeyleri de kopyalamaya çalışıyorsunuz.
Matt Krause

Teşekkürler, sanırım sonunda hepsi önemli olan şeylerin çoğaltılmasıyla sonuçlanıyor. Bu tamamen bilim felsefesi ile tutarlıdır, hiçbir hipotez kanıtlanamaz, ancak zaman içerisinde tekrarlanan deneylerle güçlenir.
Kelvin

3
İstatistiksel Sultan için +1. Önemli bir husus: Sultan, p değerlerinin art arda geldiği gerçeğini nasıl ele almalı? İlk gelen kötü bir p = 0.045 anlamlı sayılacak, ancak birkaç yüzyıl sonra hiç şansı kalmayacak mı? Bu mantıklı görünmüyor (cc ila @Kelvin). Diğer bir husus: Sultan'ın 1 yıl diyelim ve bu yılın tüm sonuçlarına düzeltmeyi uygulayalım; Düzeltilmiş alfa eşiğinin gerçekte pratikte ne olacağını merak ediyorum. Bunun hakkında fikrin var mı Matt? Bu, (yanlış!) Herkesin ortak bir alfa ile aynı fikirde olduğunu farz etmek.
amip diyor Reinstate Monica,

2
@ amoeba, bu ilginç bir soru ve bildiğimden emin değilim. Sevgili Data Despot'umuz herkesi yardımcı olabilecek bazı sıralı tasarımları kullanmaya zorlayabilir, ancak hala bu garip bileşik hipotezini test ediyor. Alternatif olarak, hepimiz Bayesi'liler olabiliriz ve çoğu zaman Tip I / II hata kayıtlarımız için endişelenmeyi bırakabiliriz. Bu biraz ucuz (eğer onları yenemezseniz, görmezden gelin!), Ama insanların pratikte nasıl davrandıklarına yakın olduğunu düşünüyorum.
Matt Krause

7

İstatiksel olarak üretilen bilimi karamsar bir bakış açısını kasıtlı olarak çizdiğinizi düşünüyorum. Aslında, benim görüşüme göre, istatistikler sadece p değerleri sağlayan bir dizi araç değildir. Ayrıca, bilimsel indüksiyon prosedüründe yer alan bazı olası etkiler konusunda titizlik, dikkat ve uyanıklık durumu vardır ... ve aklıma geldiğinde, belirttiğiniz her şey kabaca doğrudur. ürettiğimiz bilgiler hakkında:

  • İlk olarak, bir sonuca yalnızca belirli bir eşik değerden daha düşük ap değeri argümanı altında ulaşılmamalıdır.

  • İkincisi, benim bilgime göre “yayınlanan bilimsel sonuçların yarısından fazlası yanlış” türü argümanları ilgi çekici ve ilgi çekicidir ancak yaklaşık olarak 0,05'e eşit p değerleri temelinde hesaplanmaktadır (bakınız örneğin, p değerleri ve yanlış keşif oranı ile ilgili karışıklık ). . Düşük p değerleri için etki, bildirilenden çok daha düşüktür ve pratikte p değerinin 0,05'ten daha düşük olması nadir değildir. Ayrıca, birçok kez belirli bir hipotez, açıklanan etkileri tekrar azaltan birkaç alt hipotez ile doğrulanır.

  • Üçüncüsü, yeniden üretilebilirlik sorunu gerçek ama aynı zamanda kafa karıştırıcı etkilerin, grup tasarımlarının tanımlanması ve ele alınmasıyla istatistikçilerin ele alması gereken bir problemdir ve uzmanlık ve titizlikle yapılırsa bu çok iyi yapılabilir.

  • Son olarak, anladığım kadarıyla, bir arketipik istatistiksel çalışmanın aşağıdaki 5 ardışık adımı az ya da çok yapması gerekiyor:

    Formulate one or a few hypotheses
    Design the corresponding study
    Acquire the data
    Analyse the data
    Make conclusions about the above hypotheses (and only these ones)
    

    Bu genel rehber, genel çıkarımlar üretmemiz için bir araç olarak balıkçılık gezilerini engellememizi önler.

Sonuç olarak, p değerlerini aştırarak bizi kötü bilimsel sonuçlara karşı koruma niyetinizin biraz aldatıcı olduğunu söyleyebilirim. Uyarılmış ve doğru analizler sağlayarak ve teşvik ederek bizi kötü bilimsel sonuçlara karşı korumayı tercih ederim (ve bunun, bu sitede bu kadar nitelikli insanın burada başkalarına yardım etmelerinin bir nedeni olduğunu düşünmek istiyorum).


2
Savunmaya yardımcı olacağını sanmıyorum. Bilimde bugünkü yeniden üretilemezlik konusu sadece "ilginç" değil, bir kriz noktasında ve belirli bir çalışmaya (ya da onaylı bir ilacın etkinliğine bile inanmak isteyip istemediğinizden dolayı) Doğa ve hatta Ekonomistin kapağında yer aldı. ) şimdi yatırım yapılan milyarlarca dolara rağmen bir jetondan daha iyi değil.
Kelvin

6
Bir kriz olduğuna katılıyorum. Demek istediğim, madalyonun kalitesini kontrol edebileceğin. Tüm kağıtlar aynı kalitede değildir ve tecrübelerime göre kağıdın kusurlu olduğunu belirtmek bazen kolaydır. Sorunu inkar etmiyorum Çözümü inkar ediyorum: sadece uygun analizler üretiyorum :)
peuhp

Tamam, teşekkürler, cevabına saygı duyuyorum. Ancak yine de istatistiksel bir bakış açısıyla ve deneylerin kalitesinden bağımsız olarak, genel bir yanlış keşif oranını böyle bir düzeltme yapmadan asla kontrol edemeyiz, değil mi?
Kelvin

0

Bu tür bir düzeltme yapmadan yanlış keşif oranını kontrol etmek mümkün müdür?

100aa

Unutmayın ki (sık) hata oranları, herhangi bir bireysel test tarafından test edilen bir hipotezle ilgili herhangi bir olasılıkla ilgili değildir, ancak garantili uzun vadeli başarısızlık oranları ile test yapmak için yöntemler olarak kullanılır. Çoklu karşılaştırmalar için düzeltme, uzun vadeli başarısızlık oranlarını garanti etmek için başka bir yöntemdir: bunlardan biri, bileşik için bazı garantili uzun vadeli başarısızlık oranının tutulacağı şekilde birden fazla test içeren bileşik yöntemler oluşturmak için.

100 test ile tek bir deney yaparsanız ve bunların 5'inin boşa karşı konuştuğunu bildirirseniz, bu nedenle gerçek bir sonuç gözlemlediğinizi iddia ederseniz, ortalama olarak, 100 gerçek boşluğun% 5'i test edildiğinde, hiç kimse etkilenmeyecektir. reddetmek; kullandığınız yöntem, "100 test yapın ve herhangi birinin% 5 eşiğini karşılayıp karşılamadığını rapor edin",% 5'ten daha yüksek bir başarısızlık oranına sahip. Bu nedenle, çoklu karşılaştırmaları kontrol etmeyi seçebilir ve örneğin 100 testten 2'sinin p değerlerinin% (5/100 == 0,05) altında olduğunu rapor edebilirsiniz. Şimdi yine% 5'lik bir garanti oranı (en az bir varsayım yanlış olmasa bile en az bir önemli test bildirme hatası için) olan bir yöntem kullanıyorsunuz.

a, düzeltilmemiş eşikler). Buna karşılık, eğer herkes çalışma başına 100 gerçek hipotezi test etmişse ve FEW uygulamamışsa, önemli etkiler bildiren deney sayısı% 5 garantili hata oranını aşacaktır. (Gerçek hipotezlerin çoklu testlerinin bir çalışmasında önemli bir test bildirme oranını garanti eden bir yöntem olmayan FDR / Yanlış Tespit Hızı ile kontrast.)


6
İlk paragrafınızda "yanlış keşiflerin oranı" olarak adlandırdığınız şey "yanlış keşif oranı" olarak bilinen şey değildir.
amip diyor Reinstate Monica
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.