Deneysel tasarımdaki tuzaklar: Ölü deneylerden kaçınma


27

Bu alıntıya defalarca rastladım:

Bir deney bittikten sonra istatistikçiye danışmak çoğu zaman yalnızca ölüm sonrası bir inceleme yapmasını istemek içindir. Belki de deneyin neyin öldüğünü söyleyebilir. - Ronald Fisher (1938)

Bana göre, belki biraz küstahça görünüyor. Deneylerin iyi tasarım olmadan nasıl öldüğünü açıklayan şimdiye kadar bulduğum tek örnek, kontrol eksikliği veya zayıf kontroller. Örneğin, bir gübrenin uygulanmasını kontrol eden, ancak uygulama için gereken ortamı kontrol edemeyen deneyler. Belki de sadece benim, ama Fisher'ın tasarım ilkeleri hakkındaki Wikipedia bölümünden hızlıca okunması çoğu temeli kapsayacak gibi görünüyor .

Bir istatistikçi olarak, deneylerle ilgili problemlerin verilerini ne sıklıkla görüyorsunuz? Her zaman Fisher tarafından belirtilen birkaç faktörle ilişkili midir, yoksa istatistiksel olarak eğitilmemiş bilim adamlarının göz önünde bulundurması gereken diğer ciddi tuzaklar var mı?


4
Ne sıklıkta: çok sık. Deneyi "ölü" olarak adlandırmak genellikle fazla ileri gidiyor, ancak tasarımdaki sadece küçük değişikliklerle daha iyi olabileceğini gördüm.
mark999

3
Birkaç tane gördüm Şimdi küstah olsa da , Fisher bunu söylediğinde, sadece wikipedia'ya bakamadığınızı unutmayın. Bu oran ilk günlerde çok daha yüksek olabilir.
Glen_b -Reinstate Monica

4
Bu noktayı dile getirmen güzel. Ayrıca, dörtlü bir niteleyiciyi ilk gördüğümde belki de ne olabileceğini de merak ediyorum: "Bana göre, belki biraz küstah gibi görünüyor." :-)
rolando2

1
@ rolando2: Heh, peki Fisher. O Kazanılan D: tüm bu eleme
naught101

5
Ben - kelimenin tam anlamıyla - kariyerimdeki binlerce veri setini gördüm (ve neredeyse hiçbiri istatistikçiler tarafından incelenmemiş bir tasarıma göre toplanmadı). Bunların çoğu, yasal gereklilikleri yerine getirmek gibi resmi amaçlar için toplandı. Tasarımla ilgili bazı problemleri olmayan birisini hatırlayamıyorum (bazen bunlar küçük olsa da). Bu, veri setlerinin işe yaramadığını ya da "ölü" olduğunu söylemek değildir: ancak hemen hemen tüm durumlarda görevim (tıbbi analojiye devam etmek) önce veri setini yeniden canlandırmak ve sonra mümkünse amacına uygulamaktı.
whuber

Yanıtlar:


14

Fisher'ın ünlü alıntılarında ne anlama geldiğine inanıyorum "Çalışmamız için tam bir faktoring tasarım yapacağız" veya başka bir tasarım yaklaşımı. Deneyi planlarken bir istatistikçiye danışmak, araştırmanın amacı, hangi değişkenlerin konuyla ilgili olduğu, bunları nasıl toplayacağınız, veri yönetimi, tuzaklar, denemenin nasıl gittiği ile ilgili ara değerlendirme de dahil olmak üzere sorunun her yönünü akıllıca düşünmek anlamına gelir. Daha. Sık sık, zorlukların nerede olduğunu gerçekten anlamak için önerilen deneyin her yönünü görmenin önemli olduğunu düşünüyorum.

Tecrübelerim çoğunlukla tıbbi uygulamalardan geliyor. Bir istatistikçiye önceden danışarak önleyebileceğim sorunların bir kısmı önceden:

  • Tabii ki, yetersiz numune büyüklüğü bu listede bir numaradır. Genellikle önceki çalışmalardan elde edilen veriler mevcut olacak ve ihtiyaç duyulan örneklem büyüklüğünün makul bir tahminini vermek kolay olacaktı. Bu gibi durumlarda, tek başvuru genellikle verilerin yalnızca tanımlayıcı bir analizini yapmak ve makalede daha fazla araştırma yapmak için söz vermektir (yayıncılık yapmamak, doktorların değerli zamanlarını harcadıktan sonra genellikle bir seçenek değildir).
  • Deneylerin yapılması tasarım yerine kolaylık ve şansa bırakılmıştır. Şu anda üzerinde çalışıyorum bir örnek zamanla toplanan ölçümler vardır. Ölçüm süreleri, ölçüm sıklığı ve izleme süresinin sonu bireyler arasında çılgınca değişir. Birey başına ölçüm sayısının arttırılması ve ölçüm tarihlerinin ve izleme süresinin bitiminin sabitlenmesi (bu durumda) oldukça az bir ek iş olabilirdi ve çalışmaya çok faydalı olurdu.
  • Kolayca kontrol edilebilecek rahatsızlık faktörlerinin zayıf kontrolü. Örneğin, numuneler toplandığı gün ve bazen daha sonra numunenin bozulma olasılığı bırakılarak ölçümler yapıldı.
  • Kişisel favorilerim de dahil olmak üzere, kötü veri yönetimi "Bilgisayarı koymadan önce verileri yuvarladım, çünkü makine ölçümlerinde yanlış." Çoğu zaman, ilgili veriler henüz toplanmaz ve bundan sonra elde edilmesi imkansızdır.

Genellikle, bir çalışmayla ilgili problemler, araştırmanın ilk anlayışına daha da geri gider:

  • Veriler bazen açık bir amaç ve sadece bir şekilde yararlı olacağı varsayımı olmadan toplanmaktadır. Hipotez üretmek ve “önemli sonuçlar” istatistikçilere bırakılır.
  • Ve tam tersi: veriler, PI'nin kafasında olan belirli bir noktayı kanıtlamak amacıyla, verilerden ve gerçekte ne kanıtlanabileceğinden bağımsız olarak kazınır. Bu kez istatistikçilerin, veriler karşısında düzeltilmeden önceden yazılan sonuçlara önem damgasını koymaları beklenmektedir.

Şimdiye kadar, bu temel olarak istatistikçi acı çekiyor gibi gözüküyor ve PI verilerle desteklenmeyen sonuçları zorlamaya çalıştığında belki bilimsel bütünlük acı çekiyor (her zaman eğlenceli bir tartışma). Ancak deney ekibi de acı çekiyor, çünkü deney aşamasında gereksiz ekstra iş yapıyor (gerekli işi yapmamakla birlikte) ve daha önce tavsiyelerini almadıkları için istatistikçilerle tartışmaya daha fazla zaman harcamak zorundalar. Ve elbette, final makalesi daha kötü olacak, daha az sonuç çıkaracak (ve daha fazla "varsayım") ve muhtemelen PI'nin istediği yüksek etkili dergiye girmeyecek.


2. mermi setinizin ikincisi ile ilgili olarak, bir çalışmanın normal gerekçesinin belirli noktaları kanıtlamak amacıyla veri toplamak olduğunu düşünüyorum.
Robert Jones

1
Elbette tamamen haklısın. Orada biraz kısaydım. Bahsetmek istediğim, bir noktayı ispatlamaya çok kararlı olan ve bu noktayı ispatlayamayan (genellikle temel tasarım sorunları nedeniyle) bir araya gelen bir senaryo idi.
Rob Hall

12

İki kelime: Örneklem Boyutu ... Güç analizi bir zorunluluktur. Baştan sona ekibinize yetkin bir istatistikçi ekleyerek, makalenizin veya raporunuzun sonuçlarını ve tartışma bölümlerini yazarken büyük olasılıkla büyük bir sıkıntı yaşayacaksınız.

Bir baş araştırmacının, 30 kişiden az bir örneklemden bir “öngörücü model” veya “nedensel bir ilişki” beklentisi olan bir istatistikçiye danışmadan önce veri toplaması çok yaygındır. PI veri toplamadan önce bir istatistikçiye danışmış olsaydı, istatistikçi uygun analizlerden sonra daha fazla veri / konu toplamak veya analiz planlarının / projelerinin hedeflerini yeniden yapılandırmak için PI'yi bilgilendirebilirdi.


1
"Bir güç analizi bir zorunluluktur" ile aynı fikirde değilim. Bence çoğu insan güç analizinin önemini abartıyor.
mark999

3
@ mark999: Olabilir, ama Matt'in noktası olduğunu anladığım bir deney yapmadan önce bir çeşit güç analizi yapmanın önemini ihmal etmiyor .
Scortchi - Monica’yı yeniden kurun

3
@ mark999: Elbette, yararlı olduğu ortaya çıkabilir. Ancak, bir deney yapmadan önce hangi koşullar altında herhangi bir güç analizi yapmayı (hangi aralıklarla beklenen güven aralıklarını tahmin etmeyi dahil ediyorum) önermezsiniz? Sadece (1) bir protokol çalışmasını düşünebilirim, sadece protokolden geçmek ve kabaca hatayı tahmin etmekle ilgileniyorsanız, (2) bir nedenden ötürü örneklem büyüklüğü seçemediğiniz bir deneyi, güç analizi gereksiz.
Scortchi

2
@ mark999: Sanırım yapıyoruz. Durumunuz için (B), hipotezleri test etmek veya etki büyüklüklerini ölçülemez bir plan olarak tahmin etmek için pilot çalışma -> güç analizi -> deneyi öneririm .
Scortchi - Eski Monica

3
Sabit bir numune büyüklüğünüz olsa bile, kafanızı kuma gömmek ve güç analizinden kaçınmak için herhangi bir neden görmüyorum (kaynak kısıtlamaları ve cehaletin bir tarafına makul cevaplar).
Andy W,

11

Sanırım "tasarım" kelimesini ne kadar kesin yorumladığınıza bağlı. Bazen tamamen randomize vs. randomize bloklar, vb. Anlamına gelir. Ondan ölen bir çalışma gördüğümü sanmıyorum. Ayrıca, diğerlerinin de belirttiği gibi, "öldüğün" çok güçlü olduğundan şüpheleniyorum, ancak terimi nasıl yorumladığınıza bağlı. Kesinlikle 'anlamlı olmayan' çalışmalar gördüm (ve daha sonra araştırmacıların sonuç olarak yayınlamaya çalışmadıkları); Farklı olarak yapılırsa (vereceğim açık tavsiyeye göre) ve dolayısıyla yayınlandığı takdirde, bu çalışmaların 'önemli' olabileceği varsayımı altında ve “yayınlanmış” olarak nitelendirilebilir. Bu anlayış ışığında, @RobHall ve @MattReichenbach’ın ortaya çıkardığı güç sorunu oldukça basittir. ancak, örneklem büyüklüğünden daha fazla güç var ve bunlar daha gevşek bir "tasarım" anlayışı altına girebilir. Burada bir çift örnek var:

  • Bilgi toplama / kaydetme / ya da çöpe atma
    Araştırmacıların belirli bir özelliğin kanserle ilgili olup olmadığına ilgi duydukları bir çalışma üzerinde çalıştım. İki çizgiden (yani, genetik çizgiler, farelerin belirli özellikler için yetiştirildiği) fareler aldılar, burada bir çizginin diğerinden daha fazla özelliğe sahip olması bekleniyordu. Bununla birlikte, söz konusu özellik, olmasına rağmen gerçekte ölçülmedi. Bu durum, gücü azaltan sürekli bir değişkeni dikhotomize veya bindirmeye benzerdir. Bununla birlikte, sonuçlar 'anlamlı' olsa bile, her bir fare için özelliğin büyüklüğünü bildiğimizden daha az bilgilendirici olacaktır.

    Bu aynı başlıktaki bir başka durum da açık değişkenleri düşünmek ve toplamak değildir.

  • Kötü anket tasarımı
    Geçenlerde hasta memnuniyeti anketinin iki koşulda yapıldığı bir çalışma üzerinde çalıştım. Ancak, hiçbir madde ters puanlama yapmamıştır. Çoğu hasta listeye düştü ve 5 maddeyi de işaretledi ( muhtemelen katılıyorum ), muhtemelen eşyaları okumadan bile. Başka sorunlar da vardı, ama bu çok açık. Tuhaf bir şekilde, çalışmayı yürüten sorumlu kişi, katılmasının açıkça bu tür danışmanlık için ücretsiz ve elverişli olmamıza rağmen, çalışmayı ilk önce bir istatistikçi ile incelememesini teşvik ettiğini söyledi .


Vay ... ilkinden, ne yaptım onlar ölçmek? Bu biraz belirgin görünüyor. Yoksa önceden özelliklerin farklı çizgilerde farklı olduğuna dair güvence verdiler mi? İkinci örnek havalıdır, çoğu insanın düşünmeyeceği bir tür randomizasyondur.
naught101

5
Sadece diğerine karşı 1 suşu test edildi. Söz konusu özellik, satırlardan biri için gerçekten daha yüksek olma eğilimindedir, ancak bazı örtüşmeler vardır - dağılımlar tamamen ayrılmaz.
gung - Reinstate Monica

Nokta 1 ile benzer bir deneyimim oldu: belirli bir hücre tipini tanımak için bir mikroakışkan cihazı kuruldu. Tanınacak hücrelerin ve kontrol hücrelerinin bir karışımı enjekte edildi ve tanınması için kullanılacak bir video akışı + sinyal akışı elde edildi. Ne yazık ki, video akışı, belirli bir anda detektörde bir hücre olup olmadığı için referans olarak kullanılabilirken, hücrenin gerçekte ne tür olduğunu söylemenin bir yolu yoktu, yani bir sinyalin gerçek pozitif olup olmadığını belirlemenin bir yolu yoktu. yanlış negatif veya hiçbir sinyal gerçek negatif veya yanlış pozitif değildi ...
cbeleites,

8

Bu tür problemleri anket benzeri ve psikolojik deneylerde gördüm.

Bir durumda, tüm deney bir öğrenme deneyimine dönüştürülmek zorunda kaldı. Sonuçların karışıklığına neden olan birden fazla düzeyde sorun vardı, ancak hipotezi desteklediği anlaşılan sonuçlar vardı. Sonunda, hipotezi reddetmek için yeterli güce sahip olan daha sıkı bir deney planlamama yardımcı oldum.

Diğer durumda, daha önce tasarlanmış ve yapılmış bir anket uygulandı ve birkaç ilgi alanının etkilenmesiyle sonuçlanan çok sayıda sorun vardı. Örneğin, bir kilit alanda, müşterilerin bir etkinlikten kaç kez uzakta olduklarından dolayı dolu olduklarından sorulduğunu sordular. Sorun şu ki, soruda zaman aralığı olmaması, 4 kez katılmaya çalışan ve 4 kez geri çevrilen ve 40 kez katılmaya çalışan ve sadece 4 kez geri çevrilen biri arasındaki farkı söyleyemezsiniz. .

Ben eğitimli bir başkent İstatistiği değilim, ama daha önce bana gelirlerse, bu sorunları çözmelerine ve daha iyi sonuçlar almalarına yardımcı olabilirdim. İlk durumda, yine de hayal kırıklığı yaratıyordu, "Üzgünüm, hipoteziniz son derece düşük görünüyor", ancak onları ikinci bir deneyden kurtarabilirdi. İkinci durumda, onlara bazı önemli sorulara cevaplar vermiş ve sonuçları daha net yapmıştır. (Sahip oldukları diğer bir problem, zaman içinde birden fazla yeri araştırmış olmaları ve en azından bazı insanların bu nedenle birden fazla kez "anketi başka bir yere mi yaptınız?" Diye sorgulamamasıydı.

Belki de istatistiki konular değil, ancak her iki durumda da akıllı, iyi eğitimli alan uzmanları kusurlu araçlar yarattı ve sonuçlar bir ölü deney ve bir uzuvla yapılan bir deneydi.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.