40.000 sinirbilim makalesi yanlış olabilir

Bu makaleyi , Ekonomist'te “40.000 yayınlanmış [fMRI] çalışması gibi bir şey” hakkında şüphe uyandırıcı görünüşte harap bir kağıt [1] hakkında gördüm . Diyorlar ki hata “hatalı istatistiksel varsayımlardan” kaynaklanıyor. Makaleyi okudum ve kısmen çoklu karşılaştırma düzeltmeleri ile ilgili bir sorun olduğunu görüyorum, ancak bir fMRI uzmanı değilim ve takibini zor buluyorum.

Yazarların bahsettiği yanlış varsayımlar nelerdir ? Bu varsayımlar neden yapılmıştır? Bu varsayımları yapmanın yolları nelerdir?

Zarf hesaplamasının arkasına göre, 40.000 fMRI bildirisinin fon sağlamada milyar doların üzerinde olduğu yazıyor (öğrenci maaşı, işletme maliyetleri vb.).

[1] Eklund ve diğerleri, Küme arızası: Neden mekansal boyut için fMRI çıkarımlarının yanlış pozitif oranları artırdığı, PNAS 2016

— R Greg Stacey
kaynak

Ayrıca ölü somon fMRI'sı ile ilgili makaleye bakın. wired.com/2009/09/fmrisalmon

— Monica

Bu, özellikle nöropatolojilerin araştırılmasında gerçekten çok ince bir çizgi, çünkü yanlış pozitifleri istediğiniz kadar tamamen sınırlandırabilirsiniz, ancak tradeoff'ta büyük yanlış negatif insidans ile bitiyorsunuz.

— Firebug

İkisi arasında biraz fark var: somon kağıdı, herkesin zaten yapması gereken çoklu karşılaştırma düzeltmesinin önemi hakkında küçük bir paralelliktir . Buna karşılık, PNAS sorunu "doğru olanı" yapmaya çalışan insanları ısırıyor, ancak düzeltmenin kendisi biraz zor oldu.

— Matt Krause,

Bunun sormak için harika bir soru olduğunu düşünüyorum çünkü ortak bir araştırma bağlamında bu tür bir analizin yapılmasındaki düzeltmelerin ve temel varsayımların çoklu karşılaştırmaların kalbine ulaştığını düşünüyorum. Ancak, metindeki tek soru "em hakkında yorum yapmaktan daha fazla bilgiye sahip biri mi?" Bu biraz geniş ve spesifik değil. Bu, yardım merkezi kapsamında belirli bir istatistiksel konuya odaklanabilirse, bu foruma daha uygun olur.

— Monica'yı

Teşekkürler. Soruyu daha belirgin hale getirmek için düzenledim. Daha fazla düzenlemem gerekip gerekmediğini bana bildirin.

— R Greg Stacey

40000 figüründe

Haberler gerçekten sansasyonel, ancak makale gerçekten çok iyi kurulmuş. Laboratuvarımdaki günlerce tartışmalar başladı, sonuçta araştırmacıların çalışmalarını gözden geçirmelerini sağlayan gerçekten gerekli bir eleştiri. "Küme Arızası: Neden mekansal boyut için fMRI çıkarımlarının yanlış pozitif oranlar getirdiğini " yazarı olan Thomas Nichols tarafından aşağıdaki yorumun okunmasını tavsiye ederim (uzun alıntı için özür dilerim).

Ancak, pişman olduğum bir numara var: 40.000. FMRI disiplininin önemine değinmeye çalışılırken, tüm fMRI literatürünün bir tahminini, bulgularımızın getirdiği çalışmaların sayısı olarak kullandık. Savunmamızda, genel olarak küme büyüklüğü çıkarımı ile ilgili problemler bulduk (P = 0.01 CDT için ağır, P = 0.001 için önyargılı), baskın çıkarım yöntemi, literatürün çoğunun etkilendiğini gösteriyor. Bununla birlikte, etki beyanındaki sayı, popüler basın tarafından toplandı ve küçük bir twitter fırtınası besledi. Dolayısıyla, en azından “Çalışmamız kaç maddeyi etkiliyor?” Hakkında kaba bir tahminde bulunmak benim görevim olduğunu düşünüyorum. Ben bir kaynakçaya düşkün değilim ve bu gerçekten kaba ve hazır bir egzersiz, ama umarım sorunun büyüklüğü hakkında bir fikir verir.

Analiz kodu (Matlab'da) aşağıda belirtilmiştir, ancak işte sıska: Bazı makul olasılıksal hesaplamalara dayanarak, ancak literatürün kırılgan örneklerine dayanarak, yaklaşık 15.000 makalenin çoklu test için düzeltmeyle küme boyutu çıkarımı kullandığını tahmin ediyorum; Bunlardan 3.500 civarında bir P = 0.01 CDT kullanın. 3.500, tüm literatürün yaklaşık% 9’u veya belki de daha faydalı, orijinal veri içeren makalelerin% 11’idir. (Elbette bu 15.000 veya 3.500’ün bir kısmı parametrik olmayan çıkarımlar kullanıyor olabilir, ancak maalesef fMRI için nadiren görülür - aksine, FSL'deki yapısal VBM / DTI analizleri için varsayılan çıkarım aracıdır).

Açıkçası bu sayının daha yüksek olacağını düşündüm, ancak hiçbir zaman çoklu test düzeltmesi kullanmayan çalışmaların büyük bölümünü anlamadım. (Düzeltmezseniz düzeltilmiş anlamlılıkları şişiremezsiniz!) . Bu hesaplamalar, 13.000 bildiri çoklu test düzeltmesi kullanmadığını göstermektedir. Elbette bunlardan bazıları ilgilenilen bölgeleri veya alt hacimli analizleri kullanıyor olabilir, ancak kesinlikle hiç bir çeşitliliği olmayan yetersiz bir az sayıdır (yani klinik çalışma stili sonucu). Makalemiz doğrudan bu grupla ilgili değildir, ancak halkın çoklu test düzeltmesini, P <0.001 & k> 10 kullanan yayınlar için, raporumuzda bu yaklaşımın aile içi hata oranlarının% 50'den daha iyi olduğunu göstermektedir.

Yani 3.500 bildiri “yanlış” mı diyoruz? Değişir. Sonuçlarımız CDT P = 0.01 sonuçlarının P-değerlerini şişirdiğini gösteriyor, ancak her bir çalışma incelenmeli… eğer etkiler gerçekten güçlü ise, P-değerlerinin yanlı olmasının önemi yoktur ve bilimsel çıkarım değişmeden kalır. Fakat eğer etkiler gerçekten zayıfsa, sonuçlar gerçekten gürültü ile tutarlı olabilir . Ve, özellikle önceki literatürde yaygın olan, düzeltilmemiş 13.000 makaleye ne dersiniz? Hayır, onlar da elden çıkarılmamalıdır, ancak bu çalışmalar için, özellikle de geliştirilmiş metodolojik standartlara sahip yeni referanslarla karşılaştırırken, özellikle yorgun bir göz gerekir.

Ayrıca sonunda bu masayı da içerir:

        AFNI     BV    FSL    SPM   OTHERS
        ____     __    ___    ___   ______

>.01      9       5     9       8    4     
.01       9       4    44      20    3     
.005     24       6     1      48    3     
.001     13      20    11     206    5     
<.001     2       5     3      16    2

Temel olarak, SPM (İstatistiksel Parametrik Haritalama, Matlab için bir araç kutusu) fMRI sinirbilim çalışmaları için en yaygın kullanılan araçtır. Makaleyi kontrol ederseniz, SPM'deki kümeler için P = 0.001 (standart) CDT kullandığını görürsünüz ve neredeyse beklenen aile-hata oranını verir.

Yazarlar , makalenin ifadelerinden dolayı bile bir haberi doldurdular :

Makalemizin yaygın olarak yanlış yorumlanması nedeniyle, Eklund ve diğerleri, Küme Arızası: Neden mekansal boyutta fMRI çıkarımlarının yanlış pozitif oranlar patlattığını, PNAS Editoral ofisine bildirdik:

Eklund ve diğerleri için Errata, Küme Arızası: Neden fMRI'nın uzamsal açıdan çıkarımlar yanlış-pozitif oranlar şişirdi. Eklund, Anders; Nichols, Thomas E; Knutsson, Hans

İki cümle zayıf bir şekilde ifade edildi ve sonuçlarımızı abarttığından kolayca anlaşılabilir.

Önem ifadesinin son cümlesi şunları okumalıdır: “Bu sonuçlar, bir dizi fMRI çalışmasının geçerliliğini sorgulamaktadır ve zayıf derecede önemli beyin görüntüleme sonuçlarının yorumlanmasında büyük bir etkiye sahip olabilir.”

“FMRI'nin geleceği” başlığından sonraki ilk cümle şunu okumalıydı: “Lamine edilebilir arşivleme ve veri paylaşımı uygulamaları nedeniyle, sorunlu analizlerin yeniden yapılması mümkün değildir.”

Bunlar, çalışmamızın 40.000 yayının tamamını etkilediğini ima eden iki cümleyi değiştirdi (literatürün potansiyel olarak ne kadar etkilendiğine dair bir konuk için bkz. Küme Çıkarımı Bibliometrisi).

İlk başta, notu reddettikten sonra, yorumlamayı düzelttiği ve gerçeği değil olduğu gerekçesiyle, PNAS yukarıda belirttiğimiz gibi yayınlamayı kabul etti.

Sözde Bug üzerinde

Bazı haberler de çalışmaların geçersizliğinin nedeni olarak bir hatadan bahsetti . Nitekim AFNI araçlardan biri undercorrecting çıkarımlar oldu ve ön baskı gönderilmiş sonra bu çözüldü arXiv .

Fonksiyonel nörogörüntülemede kullanılan istatistiksel çıkarım

$\approx 5\%$

Genelleştirilmiş bir doğrusal model (GLM) kullanarak, hangi voksel sinyal zaman serilerinin, deneyinizin paradigmasının tasarımı ile korele olduğunu belirlersiniz (genellikle kanonik bir hemodinamik yanıt fonksiyonu ile kıvrılmış, ancak varyasyonlar vardır).

Bu yüzden bu GLM size her voksel zaman serisinin göreve ne kadar benzettiğini verdi. Şimdi, iki kişilik grubunuz olduğunu söyleyin: hastalar ve kontroller genellikle. Gruplar arasındaki GLM skorlarının karşılaştırılması, grupların durumunun beyin "aktivasyon" düzenini nasıl değiştirdiğini göstermek için kullanılabilir.

Gruplar arasında voksel bazında karşılaştırma yapılabilir, ancak ekipmana özgü nokta yayma işlevi ve düzleştirme ön işleme adımı nedeniyle voksellerin tüm bilgileri ayrı ayrı taşımasını beklemeniz mantıklı değildir. Gruplar arasındaki voksellerdeki fark, aslında, komşu voksellere yayılmalıdır.

Dolayısıyla küme bazında karşılaştırma yapılır, yani yalnızca kümeler halinde oluşan gruplar arasındaki farklılıklar göz önünde bulundurulur. Bu küme kapsamı eşiklemesi, fMRI çalışmalarında en popüler çoklu karşılaştırma düzeltme tekniğidir . Sorun burada yatıyor.

SPM ve FSL, FWE ile düzeltilmiş voksel yönünde ve küme yönünde çıkarım için Gauss rastgele alan teorisine (RFT) bağlıdır. Ancak, RFT kümelenmiş çıkarım iki ek varsayıma bağlıdır. İlk varsayım, fMRI sinyalinin uzamsal pürüzsüzlüğünün beyin üzerinde sabit olduğu ve ikinci varsayımın, uzamsal otokorelasyon fonksiyonunun belirli bir şekle sahip olduğu (karesel üstel) olduğu (30).

SPM'de en azından nominal bir FWE oranı ve ayrıca bir küme tanımlayıcı eşik (CDT) ayarlamanız gerekir. Temel olarak, SPM görevle son derece ilişkili vokseller bulur ve CDT ile eşiklendikten sonra, komşu olanlar kümeler halinde toplanır. Bu küme boyutları, FWER seti [ 1 ] verilen Rastgele Alan Teorisi'nden (RFT) beklenen kümelenme büyüklüğü ile karşılaştırılır .

Rastgele alan teorisi, aktivite haritasının pürüzsüz olmasını, rastgele alanlara iyi bir kafes yaklaşımı olmasını gerektirir. Bu hacimlere uygulanan düzleştirme miktarı ile ilgilidir. Düzeltme ayrıca artıkların normal olarak dağıldığı varsayımını etkiler, pürüzsüz olarak, merkezi limit teoremi ile verileri daha Gauss yapacaktır.

Yazarlar [ 1 ] 'de, RFT'den beklenen küme boyutlarının, rastgele permütasyon testinden (RPT) elde edilen küme kapsamı eşikleri ile karşılaştırıldığında gerçekten küçük olduğunu göstermiştir.

$\alpha = 0.05$

@ amoeba, yorumlarda bu iki önemli soruyu gündeme getirdi:

(1) Eklund ve diğ. PNAS kağıdı, tüm testlerin "nominal% 5 seviyesi" nden bahsetmektedir (bkz. Örneğin, Şekil 1'deki yatay siyah çizgi). Bununla birlikte, aynı şekilde CDT değişkendir ve örneğin 0.01 ve 0.001 olabilir. CDT eşiğinin nominal tip I hata oranı ile ilişkisi nedir? Bununla kafam karıştı. (2) Karl Friston'ın cevabını gördünüz mü http://arxiv.org/abs/1606.08199 ? Okudum, ama ne dediklerini tam olarak bilmiyorum: Eklund ve diğ. ama bunun "iyi bilinen" bir sorun olduğunu mu söylüyorsunuz?

(1) Güzel soru. Aslında referanslarımı gözden geçirdim, bakalım şimdi daha açık hale getirebilir miyim. Kümelenmiş çıkarım, birincil eşikten sonra ( rasgele olan CDT ) uygulandıktan sonra oluşan kümelerin boyutuna dayanır . Olarak ikincil analizi bir küme başına voksel sayısı eşik uygulanır. Bu eşik, teorik olarak tahmin edilebilecek (örneğin RFT) boş küme genişletmelerinin beklenen dağılımına dayanır ve nominal bir FWER belirler. İyi bir referans [ 2 ].

(2) Bu referans için teşekkürler, daha önce görmedim. Flandin & Friston, Eklund ve ark. onaylı RFT çıkarımı, temel olarak varsayımlarına saygı göstermenin (CDT ve düzleştirme ile ilgili) sonuçların tarafsız olduğunu göstermiştir. Bu ışık altında, yeni sonuçlar literatürdeki farklı uygulamaların, RFT'nin varsayımlarını yıkarken çıkarımı önyargılı hale getirme eğiliminde olduğunu göstermektedir.

Çoklu karşılaştırmalarda

Ayrıca, sinirbilim alanındaki birçok araştırmanın, literatürün% 10 ila% 40'ı arasında olduğu tahmin edilen çoklu karşılaştırmalar için düzeltilmediği de bilinmektedir. Ancak bunlar bu iddia ile açıklanmadı, herkes bu makalelerin kırılgan geçerliliğine ve muhtemelen çok büyük yanlış pozitif oranlara sahip olduğunu biliyor.

FWER’de% 70’in üzerinde

Yazarlar ayrıca% 70'in üzerinde FWER üreten bir prosedür bildirdi. Bu "halk" prosedürü, CDT'yi yalnızca yüksek derecede önemli kümeleri tutmak için uygulamak ve daha sonra keyfi olarak seçilen başka bir küme kapsamı eşiğini (voksel sayısı) uygulamaktan ibarettir. Bu, bazen "sonuç çıkarım" olarak adlandırılan, istatistiksel olarak zayıf temellere sahiptir ve muhtemelen en az güvenilir sonuçları oluşturur.

Önceki raporlar

Aynı yazarlar SPM'nin [ 1 ] geçerliliği ile ilgili problemleri bireysel analizlerde zaten bildirmişlerdi . Bu alanda başka alıntı yapılan çalışmalar da var.

İlginçtir ki, simüle edilmiş verilere dayanan grup ve bireysel düzey analizleri hakkındaki birkaç rapor, RFT eşiğine karar verdi, aslında muhafazakardı. İşlem gücündeki son gelişmelere rağmen, RPT gerçek veriler üzerinde çok daha kolay bir şekilde gerçekleştirilebilir ve RFT ile büyük farklılıklar ortaya çıkarılabilir.

GÜNCELLEME: 18 Ekim 2017

A açıklama "Küme hatası" geçen Haziran ayında ortaya etmiştir [ 3 ]. Orada Mueller ve diğ. Eklund ve arkadaşları sunulan sonuçlara iddia olabilir bunların çalışmada kullanılan özel bir görüntüleme ön işleme tekniği kaynaklanabilir. Temel olarak, işlevsel görüntüleri yumuşatmadan önce daha yüksek bir çözünürlüğe yeniden örneklediler (muhtemelen her araştırmacı tarafından yapılmasa da, çoğu fMRI analiz yazılımında rutin bir işlemdir). Ayrıca Flandin ve Friston'un yapmadığını da belirtiyorlar. Aslında Eklund’un aynı ay Vancouver’daki İnsan Beyin Haritalama Örgütü (OHBM) Yıllık Toplantısı’ndaki konuşmasını gördüm, ancak bu konuda herhangi bir yorum hatırlamıyorum, ancak soru için çok önemli görünüyor.

[1] Eklund, A., Andersson, M., Josephson, C., Johannesson, M., & Knutsson, H. (2012). SPM ile parametrik fMRI analizi geçerli sonuçlar veriyor mu - 1484 deneysel veri setinin ampirik bir çalışması. NeuroImage, 61 (3), 565-578 sayılı belgeler.

[2] Woo, CW, Krishnan, A. ve Wager, TD (2014). FMRI analizlerinde kümelenme temelli eşikleme: tuzaklar ve öneriler. Nörogörüntü, 91, 412-419.

[3] Mueller, K., Lepsien, J., Möller, HE ve Lohmann, G. (2017). Yorum: Küme arızası: Neden uzamsal boyut için fMRI çıkarımlarının yanlış pozitif oranları artırdığı. İnsan Sinirbiliminde Sınırlar, 11.

— kundakçı
kaynak

@Qroid İlk bölüm için evet, varsayım geçerli değil (ve muhtemelen parametrik olmayan permütasyon testinin iyi performans göstermesinin nedeni budur). Kümeler, voksellerin kümeleridir, yani aynı etkiyi gösteren komşu vokseller. Bir kümeyi tanımlamak için bir p değeri vardır (küme tanımlayan eşik).

— Firebug

Bu cevap çoğunlukla 40000 olup olmadığına veya başka bir sayıya odaklanıyor, ancak eğer ana tartışmayı özetleyebilirseniz (kümeler nedir? Gerçekten bunu daha önce düşünün mü? vb.)

— Amip Reinstate Monica diyor 25:16

Tekrar teşekkürler. Kısa bir süre sonra Woo ve ark. 2014, artık eminim neden Eklund ve ark. PNAS'a girdi ve sonuç olarak popüler basında ve blogların çevresinde böyle bir shtorm üretti. Woo ve diğ. az ya da çok aynı şeyi mi söylüyorsun? İşte tam da, "öne çıkanlar" blobunda: "Liberal bir birincil eşik kullanıldığında başka bir tuzak yanlış pozitifliği arttırıyor".

— amip diyor Reinstate Monica

Anlıyorum. Dolayısıyla benim anladığım kadarıyla şu anda bilimsel olarak pek bir şey olmadı: liberal CDT'lerle ilgili sorun yıllardır biliniyor, birçok makalede tartışılıyor ve çeşitli araştırmacılar tarafından çeşitli simülasyonlarda gösteriliyor. (Fakat yine de, bazı araştırmacılar bu kadar tehlikeli liberal CDT'ler kullanmaya devam etti.) Eklund ve ark. 2016 "yüksek profilli" bir dergide ve boo'da yayınlandığı için şanslı! - şimdi herkes bunun bir vahiymiş gibi konuşuyor.

— amip diyor Reinstate Monica

@amoeba Sinirbilim topluluğunun, uygulamalı psikolojide olduğu gibi (belki de p-değerlerini yasaklamak kadar sert değil) istatistiksel bir çöküşe ihtiyacı var. İstatistiki önemi iddia eden birçok makalede istatistiksel bir titizlik yoktur, insanlar araçları ve "sonuçları ortaya çıkaran" parametreleri kullanır.

— Firebug