'Tekrarlanabilir araştırmayı' nasıl tanımlarız?


50

Bu şimdi birkaç soruda ortaya çıktı ve bir şey hakkında merak ediyorum. Bir bütün olarak alan, orijinal verilerin ve söz konusu kodun kullanılabilirliğine odaklanarak "tekrarlanabilirliğe" doğru yöneldi mi?

Her zaman, yeniden üretilebilirliğin özünün zorunlu olduğunu söylemem gerektiği gibi, Çalıştır'ı tıklayıp aynı sonuçları elde etme kabiliyetine sahip olduğum öğretildi. Veri ve kod yaklaşımı, verilerin doğru olduğunu varsaymaktadır - verilerin toplanmasında bir kusur olmadığı (bilimsel sahtecilik durumunda genellikle açıkça yanlış). Aynı zamanda, çoklu bağımsız örneklemler üzerinde bulgunun tekrarlanabilirliğinden ziyade, hedef popülasyonun tek bir örneğine odaklanmaktadır.

Öyleyse, çalışmayı sıfırdan tekrarlamak yerine, analizi tekrar yapabilmenin vurgusu neden?

Aşağıdaki yorumlarda belirtilen yazıya buradan ulaşabilirsiniz .


İyi soru ! Cevabımdaki donoho gazetesine atıfta bulundum, fakat tekrarlanabilir araştırma hakkındaki yazılı referanslarınız neler?
Robin Girard

Reiter ve Kinney, bu ayki Epidemiyoloji dergisinde, Araştırma Amaçları İçin Gizli Verilerin Paylaşılması: Bir .csv dosyasını alamayacağınız durumlarda nasıl kod ve verilerin kullanılabilir hale getirileceğine yardımcı olan bir Astar 'adlı bir bildiri yayınladı. ve gizliliğin bozulmadan kalmasını sağlama ihtiyacı.
Fomite

@EpiGrad, "bu ay" geçtiğinden bu yana, makaleyle bağlantısı olması yardımcı olacaktır. Özgeçmiş ve bilim / veri analizine katkıda bulunan harika bir soru sorduğunuz için teşekkür ederiz!
dediklerinin - Monica Yeniden

@gung Hangi makale?
Fomite

@EpiGrad hemen üstünde, Reiter ve Kinney. +1 btw
gung - Reinstate Monica

Yanıtlar:


41

Tekrarlanabilir analiz olarak "Tekrarlanabilir araştırma"

Çoğaltılabilir araştırma , bazı araştırma alanlarında özel olarak bu tür analizlerin yapılmasına atıfta bulunmak için kullanılan bir terimdir.

  • kod, ham verileri ve meta verileri işlenmiş verilere dönüştürür,
  • kod veriler üzerinde analizler yapar ve
  • kod, bir rapora analizler içerir.

Bu tür veriler ve kodlar paylaşıldığında, bu diğer araştırmacıların şunları yapmasını sağlar:

  • Orijinal araştırmacılar tarafından bildirilmeyen analizler yapmak
  • Orijinal araştırmacılar tarafından yapılan analizlerin doğruluğunu kontrol etmek

Bu kullanım Sweave gibi teknolojilerin tartışılmasında görülebilir . Örneğin, Friedrich Leisch, Sweave bağlamında “gerçekten yeniden üretilebilir araştırmalara olanak sağlayan veri veya analiz değiştiğinde rapor otomatik olarak güncellenebilir” diye yazıyor. Ayrıca, “yeniden üretilebilir araştırmanın amacının veri analizine ve deneysel verilere özel talimatlar bağlamak, böylece bursun yeniden yapılandırılması, daha iyi anlaşılması ve doğrulanması” olduğunu belirten Yeniden Oluşturulabilir Araştırma hakkındaki CRAN Görev Görüşünde de görülebilir .

"Tekrarlanabilirlik" teriminin daha geniş kullanımı

Tekrarlanabilirlik, bilimin temel bir amacıdır. Yeni değil. Araştırma raporları, verilerin nasıl üretildiğini, işlendiğini ve analiz edildiğini özetlemesi gereken yöntem ve sonuç bölümlerini içerir. Genel bir kural, sağlanan bilgilerin uygun şekilde yetkin bir araştırmacının verilen bilgiyi alması ve çalışmayı kopyalaması için yeterli olması gerektiğidir.

Tekrarlanabilirlik ayrıca, tekrarlanabilirlik ve genelleme kavramları ile de yakından ilgilidir.

Dolayısıyla, Sweave gibi teknolojilere uygulandığı gibi kelimenin tam anlamıyla ele alınan “tekrarlanabilir araştırma” terimi, kapsadığından daha geniş bir alaka düzeyi önerdiği göz önüne alındığında yanlış bir addır. Ayrıca, Sweave gibi teknolojileri bu teknolojiyi kullanmayan araştırmacılara sunarken, bu tür araştırmacılar süreci “tekrarlanabilir araştırma” olarak adlandırdığımda çok şaşırırlar.

"Tekrarlanabilir araştırma" dan daha iyi bir terim

Sweave benzeri bağlamlarda kullanıldığı şekliyle “yeniden üretilebilir araştırma” nın, yeniden üretilebilir araştırmanın yalnızca bir yönüyle ilgili olduğu göz önüne alındığında, belki alternatif bir terim kabul edilmelidir. Olası alternatifler şunlardır:

Yukarıdaki terimlerin tümü, Sweave benzeri analizlerin içerdiği şeyin daha doğru bir yansımasıdır. Tekrarlanabilir analiz kısa ve tatlıdır. "Veri" veya "istatistiksel" eklemek, işleri daha da açıklığa kavuşturur, ancak terimi daha uzun ve daha dar hale getirir. Ayrıca, “istatistiksel” in dar ve geniş bir anlamı vardır ve kesinlikle dar anlam dahilinde, veri işlemenin çoğu istatistiksel değildir. Bu nedenle, "tekrarlanabilir analiz" teriminin ima ettiği genişlik avantajları vardır .

Bu sadece tekrarlanabilirlikle ilgili değil

"Tekrarlanabilir araştırma" terimi ile ilgili diğer bir ek konu ise, Sweave benzeri teknolojilerin amacı sadece "tekrarlanabilirlik" değildir. Birbiriyle ilişkili birkaç amaç var:

  • Yeniden üretilebilirlik
    • Ham verileri aynı sonuçlarla nihai rapora dönüştürmek için analizler kolayca tekrar yapılabilir mi?
  • doğruluk
    • Veri analizi, araştırmacının niyetleriyle tutarlı mı?
    • Araştırmacının niyetleri doğru mu?
  • açıklık
    • Şeffaflık, hesap verebilirlik
      • Diğerleri yapılan analizlerin doğruluğunu kontrol edebilir ve doğrulayabilir mi?
    • Genişletilebilirlik, değiştirilebilirlik
      • Başkaları yeni araştırma çalışmaları oluşturmak için verileri, analizleri veya her ikisini de değiştirebilir, genişletebilir, yeniden kullanabilir ve ezebilir mi?

Tekrarlanabilir analizin doğru analizleri desteklemesi gerektiğine dair bir argüman var çünkü kontrol edilebilecek yazılı bir analiz kaydı var. Ayrıca, eğer veri ve kod paylaşılıyorsa, araştırmacıları analizlerini kontrol etmeye motive eden ve diğer araştırmacıların düzeltmeleri not etmelerini sağlayan sorumluluk oluşturur.

Tekrarlanabilir analiz, aynı zamanda açık araştırma konusundaki kavramlara da yakışır. Elbette, bir araştırmacı Sweave benzeri teknolojileri sadece kendileri için kullanabilir. Açık araştırma ilkeleri, daha fazla yeniden kullanım ve hesap verebilirlik için veri ve analiz kodunun paylaşılmasını teşvik eder.

Bu, "tekrarlanabilir" kelimesinin kullanımının bir eleştirisi değildir. Aksine, sadece Sweave benzeri teknolojilerin kullanılmasının gerekli olduğunu, ancak açık bilimsel araştırma amaçlarına ulaşmak için yeterli olmadığını vurgulamaktadır.


2
(+1) Harika cevap, çok iyi puanlar. Bence Sweave ve arkadaşların yaptığı çağrı gerektiğini kabul ediyoruz tekrarlanabilir analiz .
NRH

1
(+1) güzel genel bakış. ancak 'ham veri' teriminin belirsiz olduğunu ve yanıltıcı olabileceğine dikkat çekerim - veriler genellikle makineye girmek için 'ham' olarak kabul edilme aşamasından önce işlenir.
David LeBauer

@Jeromy Anglim Bu harika bir cevap ve "yeniden üretilebilir araştırma" anlamında beni rahatsız eden şeyin özünü elde ediyor - sadece veri oluşturma süreci tamamlandıktan sonra gerçekleşen bir süreci tanımlamak için kullanılıyor. Terim olarak "Tekrarlanabilir Analiz" fikrini seviyorum.
Fomite

+1 @Jeromy Anglim, geçenlerde Ryayında kullanılan kodu paylaşıp paylaşamadığını görmek için bir yazarla temasa geçtim , yazar bunu yapmayı reddetti ve yayını bana gösterdi. Sizce, bunu tekrarlanabilir araştırmalara açıklık eksikliği olarak mı kabul edersiniz, yoksa metodolojiyi dergide açık bir hale getirmek ve diğer kodları kendileri programlamak için yeterli mi? Teşekkürler
Tahmincisi

11

Yürütülmesi kolay bir biçimde analiz için verilere ve kodlara erişim , tekrarlanabilir bir araştırmanın olmazsa olmazıdır . Analizin çalıştığını doğruladıktan sonra, orijinal yazarın şüphesini çekeceğiniz kendi kodunuzu / verilerinizi değiştirebilirsiniz. Okuduğum istatistik içeren makalelerin çoğunun, metodolojinin en az bir parçasını belirsiz bıraktığını söyleyebilirim. Bu analizleri yeniden üretme girişimlerim çoğu zaman başarısız oluyor (ve her zaman zaman alıyor), ancak bunun sahtekarlıktan, insan hatası veya (bu çok daha büyük olasılıkla) bu belirsizlikleri yazardan farklı bir şekilde çözdüğümden kaynaklandığını söylemek çok zor. Bu nedenle, bir makale için veri + koduna sahip olmak, sonuçlarının doğru olduğunu garanti etmez, ancak onları eleştirmeyi veya genişletmeyi çok daha kolaylaştırır.

Ayrıca, "tekrarlanabilir araştırma" derecesi meselesi. Bu nedenle, yeniden üretilebilir araştırma hareketi, araştırmanın bir miktar asgari eşiğe uymasını talep etmek yerine normdan daha "tekrarlanabilir" araştırmayı teşvik edici olarak görülebilir. "Veriyi ve kodu serbest bırakma" nın şu anda moda olduğunu tahmin ediyorum, çünkü nispeten kolay ve tehdit edici olmayan bir adım.


9

Her şeyi yeniden yürütebilmek, yeniden üretilebilir araştırmalar için bir başlangıç ​​noktasıdır. Aynı prosedürü kullandığınızı göstermenize izin verir. Ondan sonra - ve ancak ondan sonra - meslektaşlarının araştırmasına devam edebilirsin. Başka bir deyişle, katı tekrarlanabilirlik, araştırmanın ilerleyeceği bir zaman olarak algılanmak değil, insanların üzerinde hemfikir oldukları bir dönüm noktası, bir fikir birliği olarak algılanmaktır . Daha ileriye gitmek için temel değil mi?

Ayrıca, Donoho'nun tartışmasına göre (bölüm 2 "skandalı" okuyun), tekrarlanabilir araştırmanın amacı, verilen kodun sağlamlığını test etmektir. İlk önce kodla oynayarak, kağıtta yapılmayan değişiklik yapma (çünkü 30 Şekilli kağıt istemiyoruz ...). Edebiyatta tekrarlanabilir araştırma kavramının güçlü bir dönüm noktası olma fikrini içerdiğini düşünüyorum. Neredeyse daha ileri gitme fikrini içeriyor.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.