40000 figüründe
Haberler gerçekten sansasyonel, ancak makale gerçekten çok iyi kurulmuş. Laboratuvarımdaki günlerce tartışmalar başladı, sonuçta araştırmacıların çalışmalarını gözden geçirmelerini sağlayan gerçekten gerekli bir eleştiri. "Küme Arızası: Neden mekansal boyut için fMRI çıkarımlarının yanlış pozitif oranlar getirdiğini " yazarı olan Thomas Nichols tarafından aşağıdaki yorumun okunmasını tavsiye ederim (uzun alıntı için özür dilerim).
Ancak, pişman olduğum bir numara var: 40.000. FMRI disiplininin önemine değinmeye çalışılırken, tüm fMRI literatürünün bir tahminini, bulgularımızın getirdiği çalışmaların sayısı olarak kullandık. Savunmamızda, genel olarak küme büyüklüğü çıkarımı ile ilgili problemler bulduk (P = 0.01 CDT için ağır, P = 0.001 için önyargılı), baskın çıkarım yöntemi, literatürün çoğunun etkilendiğini gösteriyor. Bununla birlikte, etki beyanındaki sayı, popüler basın tarafından toplandı ve küçük bir twitter fırtınası besledi. Dolayısıyla, en azından “Çalışmamız kaç maddeyi etkiliyor?” Hakkında kaba bir tahminde bulunmak benim görevim olduğunu düşünüyorum. Ben bir kaynakçaya düşkün değilim ve bu gerçekten kaba ve hazır bir egzersiz, ama umarım sorunun büyüklüğü hakkında bir fikir verir.
Analiz kodu (Matlab'da) aşağıda belirtilmiştir, ancak işte sıska: Bazı makul olasılıksal hesaplamalara dayanarak, ancak literatürün kırılgan örneklerine dayanarak, yaklaşık 15.000 makalenin çoklu test için düzeltmeyle küme boyutu çıkarımı kullandığını tahmin ediyorum; Bunlardan 3.500 civarında bir P = 0.01 CDT kullanın. 3.500, tüm literatürün yaklaşık% 9’u veya belki de daha faydalı, orijinal veri içeren makalelerin% 11’idir. (Elbette bu 15.000 veya 3.500’ün bir kısmı parametrik olmayan çıkarımlar kullanıyor olabilir, ancak maalesef fMRI için nadiren görülür - aksine, FSL'deki yapısal VBM / DTI analizleri için varsayılan çıkarım aracıdır).
Açıkçası bu sayının daha yüksek olacağını düşündüm, ancak hiçbir zaman çoklu test düzeltmesi kullanmayan çalışmaların büyük bölümünü anlamadım. (Düzeltmezseniz düzeltilmiş anlamlılıkları şişiremezsiniz!) . Bu hesaplamalar, 13.000 bildiri çoklu test düzeltmesi kullanmadığını göstermektedir. Elbette bunlardan bazıları ilgilenilen bölgeleri veya alt hacimli analizleri kullanıyor olabilir, ancak kesinlikle hiç bir çeşitliliği olmayan yetersiz bir az sayıdır (yani klinik çalışma stili sonucu). Makalemiz doğrudan bu grupla ilgili değildir, ancak halkın çoklu test düzeltmesini, P <0.001 & k> 10 kullanan yayınlar için, raporumuzda bu yaklaşımın aile içi hata oranlarının% 50'den daha iyi olduğunu göstermektedir.
Yani 3.500 bildiri “yanlış” mı diyoruz? Değişir. Sonuçlarımız CDT P = 0.01 sonuçlarının P-değerlerini şişirdiğini gösteriyor, ancak her bir çalışma incelenmeli… eğer etkiler gerçekten güçlü ise, P-değerlerinin yanlı olmasının önemi yoktur ve bilimsel çıkarım değişmeden kalır. Fakat eğer etkiler gerçekten zayıfsa, sonuçlar gerçekten gürültü ile tutarlı olabilir . Ve, özellikle önceki literatürde yaygın olan, düzeltilmemiş 13.000 makaleye ne dersiniz? Hayır, onlar da elden çıkarılmamalıdır, ancak bu çalışmalar için, özellikle de geliştirilmiş metodolojik standartlara sahip yeni referanslarla karşılaştırırken, özellikle yorgun bir göz gerekir.
Ayrıca sonunda bu masayı da içerir:
AFNI BV FSL SPM OTHERS
____ __ ___ ___ ______
>.01 9 5 9 8 4
.01 9 4 44 20 3
.005 24 6 1 48 3
.001 13 20 11 206 5
<.001 2 5 3 16 2
Temel olarak, SPM (İstatistiksel Parametrik Haritalama, Matlab için bir araç kutusu) fMRI sinirbilim çalışmaları için en yaygın kullanılan araçtır. Makaleyi kontrol ederseniz, SPM'deki kümeler için P = 0.001 (standart) CDT kullandığını görürsünüz ve neredeyse beklenen aile-hata oranını verir.
Yazarlar , makalenin ifadelerinden dolayı bile bir haberi doldurdular :
Makalemizin yaygın olarak yanlış yorumlanması nedeniyle, Eklund ve diğerleri, Küme Arızası: Neden mekansal boyutta fMRI çıkarımlarının yanlış pozitif oranlar patlattığını, PNAS Editoral ofisine bildirdik:
Eklund ve diğerleri için Errata, Küme Arızası: Neden fMRI'nın uzamsal açıdan çıkarımlar yanlış-pozitif oranlar şişirdi. Eklund, Anders; Nichols, Thomas E; Knutsson, Hans
İki cümle zayıf bir şekilde ifade edildi ve sonuçlarımızı abarttığından kolayca anlaşılabilir.
Önem ifadesinin son cümlesi şunları okumalıdır: “Bu sonuçlar, bir dizi fMRI çalışmasının geçerliliğini sorgulamaktadır ve zayıf derecede önemli beyin görüntüleme sonuçlarının yorumlanmasında büyük bir etkiye sahip olabilir.”
“FMRI'nin geleceği” başlığından sonraki ilk cümle şunu okumalıydı: “Lamine edilebilir arşivleme ve veri paylaşımı uygulamaları nedeniyle, sorunlu analizlerin yeniden yapılması mümkün değildir.”
Bunlar, çalışmamızın 40.000 yayının tamamını etkilediğini ima eden iki cümleyi değiştirdi (literatürün potansiyel olarak ne kadar etkilendiğine dair bir konuk için bkz. Küme Çıkarımı Bibliometrisi).
İlk başta, notu reddettikten sonra, yorumlamayı düzelttiği ve gerçeği değil olduğu gerekçesiyle, PNAS yukarıda belirttiğimiz gibi yayınlamayı kabul etti.
Sözde Bug üzerinde
Bazı haberler de çalışmaların geçersizliğinin nedeni olarak bir hatadan bahsetti . Nitekim AFNI araçlardan biri undercorrecting çıkarımlar oldu ve ön baskı gönderilmiş sonra bu çözüldü arXiv .
Fonksiyonel nörogörüntülemede kullanılan istatistiksel çıkarım
≈ % 5
Genelleştirilmiş bir doğrusal model (GLM) kullanarak, hangi voksel sinyal zaman serilerinin, deneyinizin paradigmasının tasarımı ile korele olduğunu belirlersiniz (genellikle kanonik bir hemodinamik yanıt fonksiyonu ile kıvrılmış, ancak varyasyonlar vardır).
Bu yüzden bu GLM size her voksel zaman serisinin göreve ne kadar benzettiğini verdi. Şimdi, iki kişilik grubunuz olduğunu söyleyin: hastalar ve kontroller genellikle. Gruplar arasındaki GLM skorlarının karşılaştırılması, grupların durumunun beyin "aktivasyon" düzenini nasıl değiştirdiğini göstermek için kullanılabilir.
Gruplar arasında voksel bazında karşılaştırma yapılabilir, ancak ekipmana özgü nokta yayma işlevi ve düzleştirme ön işleme adımı nedeniyle voksellerin tüm bilgileri ayrı ayrı taşımasını beklemeniz mantıklı değildir. Gruplar arasındaki voksellerdeki fark, aslında, komşu voksellere yayılmalıdır.
Dolayısıyla küme bazında karşılaştırma yapılır, yani yalnızca kümeler halinde oluşan gruplar arasındaki farklılıklar göz önünde bulundurulur. Bu küme kapsamı eşiklemesi, fMRI çalışmalarında en popüler çoklu karşılaştırma düzeltme tekniğidir . Sorun burada yatıyor.
SPM ve FSL, FWE ile düzeltilmiş voksel yönünde ve küme yönünde çıkarım için Gauss rastgele alan teorisine (RFT) bağlıdır. Ancak, RFT kümelenmiş çıkarım iki ek varsayıma bağlıdır. İlk varsayım, fMRI sinyalinin uzamsal pürüzsüzlüğünün beyin üzerinde sabit olduğu ve ikinci varsayımın, uzamsal otokorelasyon fonksiyonunun belirli bir şekle sahip olduğu (karesel üstel) olduğu (30).
SPM'de en azından nominal bir FWE oranı ve ayrıca bir küme tanımlayıcı eşik (CDT) ayarlamanız gerekir. Temel olarak, SPM görevle son derece ilişkili vokseller bulur ve CDT ile eşiklendikten sonra, komşu olanlar kümeler halinde toplanır. Bu küme boyutları, FWER seti [ 1 ] verilen Rastgele Alan Teorisi'nden (RFT) beklenen kümelenme büyüklüğü ile karşılaştırılır .
Rastgele alan teorisi, aktivite haritasının pürüzsüz olmasını, rastgele alanlara iyi bir kafes yaklaşımı olmasını gerektirir. Bu hacimlere uygulanan düzleştirme miktarı ile ilgilidir. Düzeltme ayrıca artıkların normal olarak dağıldığı varsayımını etkiler, pürüzsüz olarak, merkezi limit teoremi ile verileri daha Gauss yapacaktır.
Yazarlar [ 1 ] 'de, RFT'den beklenen küme boyutlarının, rastgele permütasyon testinden (RPT) elde edilen küme kapsamı eşikleri ile karşılaştırıldığında gerçekten küçük olduğunu göstermiştir.
α = 0,05
@ amoeba, yorumlarda bu iki önemli soruyu gündeme getirdi:
(1) Eklund ve diğ. PNAS kağıdı, tüm testlerin "nominal% 5 seviyesi" nden bahsetmektedir (bkz. Örneğin, Şekil 1'deki yatay siyah çizgi). Bununla birlikte, aynı şekilde CDT değişkendir ve örneğin 0.01 ve 0.001 olabilir. CDT eşiğinin nominal tip I hata oranı ile ilişkisi nedir? Bununla kafam karıştı. (2) Karl Friston'ın cevabını gördünüz mü
http://arxiv.org/abs/1606.08199 ? Okudum, ama ne dediklerini tam olarak bilmiyorum: Eklund ve diğ. ama bunun "iyi bilinen" bir sorun olduğunu mu söylüyorsunuz?
(1) Güzel soru. Aslında referanslarımı gözden geçirdim, bakalım şimdi daha açık hale getirebilir miyim. Kümelenmiş çıkarım, birincil eşikten sonra ( rasgele olan CDT ) uygulandıktan sonra oluşan kümelerin boyutuna dayanır . Olarak ikincil analizi bir küme başına voksel sayısı eşik uygulanır. Bu eşik, teorik olarak tahmin edilebilecek (örneğin RFT) boş küme genişletmelerinin beklenen dağılımına dayanır ve nominal bir FWER belirler. İyi bir referans [ 2 ].
(2) Bu referans için teşekkürler, daha önce görmedim. Flandin & Friston, Eklund ve ark. onaylı RFT çıkarımı, temel olarak varsayımlarına saygı göstermenin (CDT ve düzleştirme ile ilgili) sonuçların tarafsız olduğunu göstermiştir. Bu ışık altında, yeni sonuçlar literatürdeki farklı uygulamaların, RFT'nin varsayımlarını yıkarken çıkarımı önyargılı hale getirme eğiliminde olduğunu göstermektedir.
Çoklu karşılaştırmalarda
Ayrıca, sinirbilim alanındaki birçok araştırmanın, literatürün% 10 ila% 40'ı arasında olduğu tahmin edilen çoklu karşılaştırmalar için düzeltilmediği de bilinmektedir. Ancak bunlar bu iddia ile açıklanmadı, herkes bu makalelerin kırılgan geçerliliğine ve muhtemelen çok büyük yanlış pozitif oranlara sahip olduğunu biliyor.
FWER’de% 70’in üzerinde
Yazarlar ayrıca% 70'in üzerinde FWER üreten bir prosedür bildirdi. Bu "halk" prosedürü, CDT'yi yalnızca yüksek derecede önemli kümeleri tutmak için uygulamak ve daha sonra keyfi olarak seçilen başka bir küme kapsamı eşiğini (voksel sayısı) uygulamaktan ibarettir. Bu, bazen "sonuç çıkarım" olarak adlandırılan, istatistiksel olarak zayıf temellere sahiptir ve muhtemelen en az güvenilir sonuçları oluşturur.
Önceki raporlar
Aynı yazarlar SPM'nin [ 1 ] geçerliliği ile ilgili problemleri bireysel analizlerde zaten bildirmişlerdi . Bu alanda başka alıntı yapılan çalışmalar da var.
İlginçtir ki, simüle edilmiş verilere dayanan grup ve bireysel düzey analizleri hakkındaki birkaç rapor, RFT eşiğine karar verdi, aslında muhafazakardı. İşlem gücündeki son gelişmelere rağmen, RPT gerçek veriler üzerinde çok daha kolay bir şekilde gerçekleştirilebilir ve RFT ile büyük farklılıklar ortaya çıkarılabilir.
GÜNCELLEME: 18 Ekim 2017
A açıklama "Küme hatası" geçen Haziran ayında ortaya etmiştir [ 3 ]. Orada Mueller ve diğ. Eklund ve arkadaşları sunulan sonuçlara iddia olabilir bunların çalışmada kullanılan özel bir görüntüleme ön işleme tekniği kaynaklanabilir. Temel olarak, işlevsel görüntüleri yumuşatmadan önce daha yüksek bir çözünürlüğe yeniden örneklediler (muhtemelen her araştırmacı tarafından yapılmasa da, çoğu fMRI analiz yazılımında rutin bir işlemdir). Ayrıca Flandin ve Friston'un yapmadığını da belirtiyorlar. Aslında Eklund’un aynı ay Vancouver’daki İnsan Beyin Haritalama Örgütü (OHBM) Yıllık Toplantısı’ndaki konuşmasını gördüm, ancak bu konuda herhangi bir yorum hatırlamıyorum, ancak soru için çok önemli görünüyor.
[1] Eklund, A., Andersson, M., Josephson, C., Johannesson, M., & Knutsson, H. (2012). SPM ile parametrik fMRI analizi geçerli sonuçlar veriyor mu - 1484 deneysel veri setinin ampirik bir çalışması. NeuroImage, 61 (3), 565-578 sayılı belgeler.
[2] Woo, CW, Krishnan, A. ve Wager, TD (2014). FMRI analizlerinde kümelenme temelli eşikleme: tuzaklar ve öneriler. Nörogörüntü, 91, 412-419.
[3] Mueller, K., Lepsien, J., Möller, HE ve Lohmann, G. (2017). Yorum: Küme arızası: Neden uzamsal boyut için fMRI çıkarımlarının yanlış pozitif oranları artırdığı. İnsan Sinirbiliminde Sınırlar, 11.