Temel bilimde sıralı hipotez testleri


16

Ben bir farmakologum ve tecrübelerime göre, temel biyomedikal araştırmalardaki hemen hemen tüm makaleler Student t-testini kullanıyor (ya çıkarımı desteklemek ya da beklentilere uymak için ...). Birkaç yıl önce, Student t-testinin kullanılabilecek en verimli test olmadığı dikkatimi çekti: sıralı testler herhangi bir numune boyutu için çok daha fazla güç veya eşdeğer güç için ortalama olarak çok daha küçük bir numune boyutu sunuyor.

Değişen karmaşıklıktaki sıralı prosedürler klinik araştırmalarda kullanılır, ancak hiç bir temel biyomedikal araştırma yayınında kullanıldığını görmedim. Çoğu temel bilim insanının görmesi muhtemel olan giriş seviyesi istatistik ders kitaplarında da bulunmadığını not ediyorum.

Sorum üç kat:

  1. Sıralı testlerin çok önemli verimlilik avantajı göz önüne alındığında, neden daha yaygın olarak kullanılmıyor?
  2. İstatistikçi olmayanlar tarafından kullanılmasının caydırılması gerektiği anlamına gelen sıralı yöntemlerin kullanımı ile ilişkili bir dezavantaj var mı?
  3. İstatistik öğrencileri sıralı test prosedürleri hakkında öğretiliyor mu?

3
Emin olmak için klinik deneylerde bulunan ST'den mi bahsediyorsunuz, örn. En.wikipedia.org/wiki/Sequential_analysis ?
chl

Evet. Sıralı t-testleri de dahil olmak üzere sıralı testlerin birkaç çeşidi vardır, ancak temel araştırmalarda hiçbiri kullanılmaz. Kullanımları için herhangi bir engel görmüyorum.
Michael Lew

(+1) Sıralı testlere rastladım ve kendime aynı soruları sordum.
steffen

Yanıtlar:


5

Ara analizler (Jennison ve Turnbull, 2000) ve bilgisayarlı uyarlamalı testler (van der Linden ve Glas, 2010) dışında ardışık testlerin ve bunların uygulamalarının pek çoğunu bilmiyorum. Bir istisna, büyük maliyetler ve denekleri kaydetme güçlüğü ile ilişkili bazı fMRI çalışmalarındadır. Temel olarak, bu durumda sıralı test öncelikle denemeyi daha önce durdurmayı amaçlamaktadır. Bu yüzden, bu çok özel yaklaşımların her zamanki istatistik sınıflarında öğretilmemesine şaşırmadım.

Sıralı testler tuzakları olmadan değildir, ancak (tip I ve II hatası önceden belirtilmelidir, durdurma kuralının seçimi ve sonuçlara çoklu bakış haklı gösterilmeli, p-değerleri, sabit olarak olduğu gibi sıfırın altında eşit olarak dağıtılmamalıdır. örnek tasarımı, vb.). Çoğu tasarımda, bir tür maliyet-etkililik ölçütünü optimize etmek için önceden belirlenmiş bir deney ortamı veya bir ön güç çalışması yapılmıştır, bu durumda standart test prosedürleri uygulanır.

Bununla birlikte, Maik Dierkes'in sabit ve açık örnek tasarımı hakkındaki aşağıdaki makalesini çok ilginç buldum : Sıralı deney tasarımları için bir iddia .


Temel biyomedikal araştırmacılar her zaman ara analizler yapıyorlar, sadece beyan etmiyorlar çünkü önemli olduğunu bile bilmiyorlar! Ulusal bir kongrede araştırmacıları inceledim ve% 50'den fazlasının Student t-testindeki hata oranlarının kontrolünün önceden belirlenmiş bir sabit numune boyutuna bağlı olduğunu bilmediğini keşfettim. Kullanılan düzensiz değişen örnek boyutlarında bunun kanıtını görebilirsiniz.
Michael Lew

Sıralı tasarımların karmaşıklıklarından kaynaklanan bazı dezavantajlar, uygulamalarından ziyade özellikle analizlerin tasarımında gelir. Belki de küçük örnek temel deneyler için önceden hazırlanmış bir dizi tasarımımız olabilir.
Michael Lew

@Michael "Sahte" ara analizler hakkında (çalışma hala gelişim aşamasındayken p-değerlerine bakmak): artık istatistiklerin yanlış kullanımı gibi görünüyor.
chl

@Chi Bir düzeyde, evet, bildirilmemiş ve düzeltilmemiş ara analizler uygun değildir (ancak cehaletle yapılır, temel biyomedikal araştırmacılara istatistik öğretme yöntemlerindeki yetersizliklere işaret ettiğine inandığım bir cehalet ...). Ancak, bunu meta düzeyde değerlendirirsek, bazı kısmi gerekçeler bulmak mümkündür. Birçok deney, artmış yanlış pozitif hata oranının daha fazla güç için makul bir çıkış olabileceği küçük örnekleri içerir. Sözleşme, 0.05'ten yüksek beyan edilmiş bir alfa düzeyini engellemektedir.
Michael Lew

Bu bağlamda, temel biyomedikal araştırmacıların, "P <0.05'in önemli olduğu kabul edilen sonuçlar" ifadeleri aksini ileri sürse bile, yalnızca Neyman-Pearson yaklaşımında çalışmadığını belirtmek isterim. Fisher'in, elde edilen P değeri dışındaki düşüncelerin test sonuçlarıyla nasıl başa çıkılacağına ilişkin kararlara dahil edilebileceği önem testinin sınırları içinde kalırsak, belki de ara analizler o kadar da kötü olmayabilir. Bununla birlikte, tasarlanmış bir sıralı testin, tasarlanmamış bir testten daha üstün olacağı kesindir.
Michael Lew
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.