R kullanarak tekrarlanabilir araştırmaların önemli örneklerini tamamlayın


71

Soru: R kullanarak çevrimiçi olarak serbestçe ulaşılabilen iyi bir çoğaltılabilir araştırma örneği var mı?

İdeal Örnek: Özellikle, ideal örnekler şunları sağlar:

  • Ham veriler (ve ideal olarak verileri açıklayan meta veriler),
  • Veri alma, işleme, analiz ve çıktı oluşturma dahil tüm R kodlarını,
  • Nihai çıktıyı nihai belgeye bağlamak için yemin ederim ya da başka bir yaklaşım,
  • Hepsi bir okuyucunun bilgisayarında kolayca indirilebilir ve derlenebilir.

İdeal olarak, örnek, istatistiksel bir öğretim örneğinin aksine, gerçek bir uygulamalı konu üzerine vurgu yapılan bir dergi makalesi veya tez olacaktır.

İlgi Alanları: Özellikle dergi makalelerinde ve tezlerinde uygulanan konularla ilgileniyorum, çünkü bu durumlarda birkaç ek konu ortaya çıkıyor:

  • Veri temizleme ve işlemeyle ilgili ortaya çıkan sorunlar,
  • Meta verilerin yönetilmesiyle ilgili sorunlar ortaya çıkar,
  • Dergiler ve tezler genellikle tablo ve şekillerin görünümü ve biçimlendirilmesine ilişkin stil rehberi beklentilerine sahiptir,
  • Pek çok dergi ve tez genellikle iş akışı (yani, analizlerin nasıl sıralanacağı) ve işlem süresi (örneğin, önbellek analizleri, vb.) İle ilgili sorunları ortaya çıkaran geniş bir analiz yelpazesine sahiptir.

Tam çalışma örneklerini görmek, yeniden üretilebilir araştırmalarla başlayan araştırmacılar için iyi bir eğitim materyali sağlayabilir.

Yanıtlar:


14

Frank Harrell, uzun yıllar boyunca tekrarlanabilir araştırma ve raporlarda davul çalıyor. Yayınlanan araştırmalar dahil olmak üzere birçok başka kaynağı listeleyen ve aynı zamanda Charles Geyer'in sayfasını da kapsayan bu wiki sayfasından başlayabilirsiniz .


11

Biostatistics dergisinde, Yeniden Üretilebilirlik için bir Yardımcı Editör bulunmaktadır ve tüm makaleleri işaretlenmiştir:

Tekrarlanabilir Araştırma

Yeniden üretilebilir araştırma politikamız, dergide yer alan yazılara, eğer dayandıkları veriler serbestçe temin edilebiliyorsa uçurtma işaretli D, yazarların kodu serbestçe temin edilebiliyorsa C ve hem veri hem de kod mevcutsa R ve Yeniden Üretilebilirlik için Yardımcı Editör, bunları kağıttaki sonuçları yeniden üretmek için kullanabilir. Veriler ve kodlar elektronik olarak derginin internet sitesinde Ek Malzemeler olarak yayınlanmaktadır.

http://biostatistics.oxfordjournals.org/

Bu ne kadar iyi bir fikir?

http://biostatistics.oxfordjournals.org/content/12/1/18.abstract analizi yapan eklerde bir R paketi ile birlikte gelir - henüz kendim denemedim. Ayrıca, açıklık derecelendirmesinin nerede belirtildiğini bulamıyor. Yardımcı editöre e-posta gönderiyorum ...

[Düzenle]

Yardımcı editör Roger Peng, PDF'yi almadan çoğaltılabilir kağıtları bulmanın bir yolu olmadığını söylüyor. Beni, üzerinde yeniden üretilebilirlik konusunda güzel, büyük bir 'R' olan (bu, filmler gibi R anlamına gelmez) işaret etti:

http://biostatistics.oxfordjournals.org/content/10/3/409.abstract

Tabii ki derginin kendisi özgür değil ... # başarısız

Barry


1
Tekrarlanabilirliği önceleyen bir dergi görmek harika. R işaretli makalelerin iyi örneklerini gördün mü?
Jeromy Anglim

1
Yayın için önceliklendirme yapmıyorlar, sadece vurgulamak istediklerini düşünüyorum. Cevabımı bir örnekle düzenleyeceğim.
Spacedman


10

Araştırma yazıları sayfamda bu tür birkaç örnek var . (Yeni üye olarak birden fazla köprü gönderemem. Bu yüzden bu sitedeki makaleleri açıklayacağım.)

(1) "Randomize Deneylerde Etkileri Manifestlemek" R'nin skeç sistemini kullanıyor.

(2) “Kümelenmiş Rastgele Oy Verme Kampanyasına Etkileri Atama”, zaman alıcı simülasyonları içeren daha karmaşık bir yazıydı. Makefile tabanlı bir sistem kullandık ve onu Dataverse'e gönderdik.

(3) "HLM için EDA" benim ilk girişimdi. Burada sadece verileri ve ilişkili Sweave dosyalarını tarball'a koydum.

JASA arşivimizi oluştururken keşfettiğimiz bir sorun, CRAN paketlerinin sürümlerinin ve varsayılanlarının değişmesiydi. Dolayısıyla, bu arşivde kullandığımız paketlerin sürümlerini de ekliyoruz. Skeç tabanlı sistem muhtemelen millet paketlerini değiştirdikçe bozulur (Ekstra paketin içine ilave paketlerin nasıl ekleneceğinden emin değilsiniz).

Sonunda, R'nin kendisi değiştiğinde ne yapacağımı merak ediyorum. Sanal makinenin muazzam olmayacağı bir kağıt için kullanılan tüm hesaplama ortamını üreten bir sanal makine üretmenin yolları var mı?

Her neyse, umarım bu örnekler yardımcı olur. En azından bu alandaki bazı deneylerimi gösteriyorlar.

(İşte bazı düz metin köprüleri.)

  [2]: http://jakebowers.org/manifesteffects-compendium-howto.txt
  [3]: http://hdl.handle.net/1902.1/12174
  [4]: http://hdl.handle.net/1902.1/13376

Bazı ilginç sorular ortaya atıyorsun. Sizden alıntı yaparak ayrı bir soru gönderdim: stats.stackexchange.com/questions/4466/…
Jeromy Anglim

9

Koenker ve Zeileis , nispeten eksiksiz bir örnek içeren bir web sayfası sunmaktadır. Paylaşırlar:

  • Rnw (Sweave kodu)
  • R analiz kodu
  • Son PDF
  • Sürüm kontrol konularının tartışılması

8

Mikroarray verilerini analiz ederken R / Bioconductor'ın nasıl kullanılacağını açıklayan bir makale yazdık. Makale Sweave dilinde yazılmıştır ve grafikleri oluşturmak için kullanılan tüm kodlar ek materyal olarak dahil edilmiştir.

Gillespie, CS, Lei, G., Erkekler, RJ, Greenall, AJ, Wilkinson, DJ, 2010. BioConductor kullanarak maya zamanı kursu mikroarray verilerinin analizi: maya2 kullanarak bir vaka çalışması. Affymetrix dizileri BMC Research Notes, 3:81.


7

Charles Geyer'in Sweave'daki sayfasında, bazı gereksinimlerinizi karşılayan bir tezi vardır (ham veriler yalnızca bir R paketinden alınmıştır, ancak R / sweave kodu ve son PDF mevcuttur):

Yun Ju Sung'un tezinde teori üzerine bir bildiri olan Kayıp Veri Modelleri için Monte Carlo Olabilirlik Çıkarımı (ön baskı) hesaplama örnekleri içeriyordu. Gazetedeki her numara ve her arsa (kes ve yapıştır ile kabul etmeliyim) Sweave'de yapılan "ek malzemeler" belgesinden alınmıştır.

( Kaynak dosya "Kağıt İçin Ek Malzemeler" bölümü altında bağlantılıdır.)

Daha önce ReproducibleResearch.net malzeme sayfasına göz atan en az bir R örneğine rastladığımı biliyorum , ancak maalesef yer imlerine eklemedi.


5

Simon Jackman, bir anketin sonuçlarını analiz etmek için özellikle faydalı bir örneğe sahip: "9/11'den 10 yıl sonra Amerikalılar ve Avustralyalılar". Tabloları ve şekilleri entegre etmek için çok sayıda örneğe sahiptir.

O yapmıştır Sweave belgesini ve PDF raporu aracılığıyla bu blog yayınında .

Ham veriler sağlanmazken (söyleyebileceğim kadarıyla), bu yüzden gerçek Sweave örneklerini çalıştırmak mümkün değil, Sweave kodunu çalışmaktan adil bir bit öğrenilebileceğini düşünüyorum.


5

Neil Saunders bir konferansla ilgili çevrimiçi etkileşimleri analiz etti. Kullanışlı bir Sweave örneği yapan birçok özellik şunları içerir:

  • Rnw dosyası sağlanır
  • Grafikler kullanılarak üretilir ggplot
  • İyi boyut ve kolayca anlaşılabilir alan

Malzemeler burada mevcuttur:


4

Ayrıca İstatistiki Yazılım Dergisi'ne bakınız ; Sweave'da kağıt yapmayı teşvik ediyorlar.


Hayır, resmen değil - LaTeX gönderimi teşvik edicidir , ancak talimatlar sayfasına bakarsanız Sweave kelimesini içermez. Yazarlar onu kullanır ve / veya R kodunu kağıtla birlikte gönderir, ancak bana bu ecose Shane'in ambalaj vinyetleriyle ilgili noktasını yazdı.
Dirk Eddelbuettel 21:10

Tamam, hala çoğu gönderen onu kullanıyor (ayrıca dergi stili Swave.sty'i de içeriyor); Asıl sorun, yayınlanan hiçbir Rnws olmaması, yine de Sweave tarafından yapılan makalelerin Stangle çıktısı ile gelmesi.

4

Geçmişte iyiler buldum ve bir kez kazıp onları çıkardığımda göndereceğim, ancak bazı hızlı genel öneriler:

  1. Anahtar kelimelerle google’da arama yaparak ve ext: rnw (bu, kâğıt uzantılı dosyaları arayacak) ile ilginç örnekler bulabilirsiniz. İşte örnek bir arama . Bu, aramamın üçüncü sonucudur: http://www.ne.su.se/paper/araietal_source.Rnw . İşte benim arama başka bir örnek: http://www.stat.umn.edu/geyer/gdor/ .
  2. Birçok R paketi, esas olarak aynı şeyi sağlayan ilginç vinyetlere sahiptir. Bir örnek: https://r-forge.r-project.org/scm/viewvc.php/paper/maxLik.Rnw

4

Robert Gentleman, "Tekrarlanabilir Araştırma: Bir Biyoinformatik Örnek Olay İncelemesi" adlı bir makale yazdı.

R Paketi olarak kısa bir analiz seti uygular ve Sweave kullanır. Ayrıca, Sweave'in kullanımını daha genel olarak tartışır.

Bkz "İlgili Dosyalar" kullanılan tüm dosya ve klasörlerin bir arşiv dosyası için makale sayfasının bölümüne.

Referans:

  • Gentleman, Robert (2005) "Tekrarlanabilir Araştırma: Bir Biyoinformatik Örnek Olay İncelemesi," Genetik ve Moleküler Biyolojide İstatistiksel Uygulamalar: Vol. 4: Sayı. 1, Madde 2.
  • DOI: 10.2202 / 1544-6115.1034
  • Mevcut at: http://www.bepress.com/sagmb/vol4/iss1/art2

4

http://genome.cshlp.org/content/early/2011/06/09/gr.117523.110/suppl/DC1

Güzel bir makale, bir laboratuvar arkadaşım tarafından. Fan postalarına benzeyen bir şey bunun için geldiğinde bizim PI oldukça memnun oldu. Şimdi gruptaki tüm yayınlar, LaTeX / Sweave'de ortaya konan ek metotlara sahiptir. Bazı yazılar da (benimki LyX / Sweave'da mı kalsın yoksa Sweave'da ekleri mi yapıp yapmayacağına karar veremez).


3

Örneklere ve uygulamalara bakmak, öğrenmenin iyi bir yoludur, ancak sadece tekrarlanabilirliğin sadece teknik / senaryoların tekrar çalışma yönünün değil, aynı zamanda kod stilini ve yapılanma yönünü, temel işlevlerde yan etkilerin en aza indirilmesini vb. Odalar için Veri Analizi Yazılımı kitabı, R kodu seviyesinde güvenilirlik ve tekrar üretilebilirlik sorunlarından kaçınılmasına yardımcı olan teknikleri daha derinden anlamanıza olanak tanır.


2

Yine de tamamen ÜREMELEBİLİR bir analiz ve bir KAĞIT için mükemmel bir örneğe ihtiyacınız varsa, bu repoyu kullanın .

@Jscamac analizini tekrarlanabilir hale getirerek harika bir iş çıkardı ve ben şahsen onayladım.

Yeniden remakeüretilebilirliği sağlamak için paket gibi R özel işlevlerini nasıl kullanacağınızı öğrenebilirsiniz .

Dikkat et / hesaplamaları tamamlamak yaklaşık bir saat sürer.

Hepsi komut dosyası ve sonunda rakamlarla bir LaTeX kağıdı üretiyor.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.