R, bash, Python, asciidoc, (La) TeX, açık kaynak kodlu yazılım veya herhangi bir un * x aracının meraklı bir kullanıcısı olarak, objektif bir cevap veremiyorum. Dahası, sık sık MS Excel veya herhangi bir tür elektronik tablo kullanımına karşı tartıştığım gibi (verilerinizi veya bir kısmını görüyorsunuz, ama başka ne var?), Tartışmaya olumlu katkıda bulunmam. Sadece ben değilim, örneğin
- P. Burns'ten Elektronik Tablo Bağımlılığı .
- MS Excel'in hassasiyeti ve doğruluğu , 2004 R posta listesinde bir yazı
- Knusel, Microsoft Excel 97'deki istatistiksel dağılımların doğruluğu üzerine , Hesaplamalı İstatistik ve Veri Analizi, 26: 375–377, 1998. ( pdf )
- BD McCullough ve B. Wilson, Microsoft Excel 2000 ve Excel XP'deki istatistiksel prosedürlerin doğruluğu üzerine , Hesaplamalı İstatistik ve Veri Analizi , 40: 713-721, 2002.
- M. Altman, J. Gill ve MP McDonald, Sosyal Bilimadamı için İstatistiksel Hesaplamada Sayısal Konular , Wiley, 2004. [örneğin, sf. 12–14]
Bir meslektaşım, geriye dönük uyumluluk vb. Nedeniyle tüm makrolarını kaybetti. Başka bir meslektaşım, sadece "onlara bakmak" için genetik verileri (800.000 işaretleyicide genotiplenmiş yaklaşık 700 denek, 120 Mo) almaya çalıştı. Excel başarısız oldu, Not Defteri de vazgeçti ... vi ile "onlara bakmak" ve hızlı bir şekilde bazı sed / awk veya perl komut dosyası ile verileri yeniden biçimlendirmek mümkün. Bu yüzden elektronik tabloların yararlılığı hakkında tartışırken dikkate alınması gereken farklı düzeyler olduğunu düşünüyorum. Ya küçük veri kümeleri üzerinde çalışıyorsunuz ve yalnızca temel istatistiksel öğeleri uygulamak istiyorsunuz ve belki de sorun değil. Ardından, sonuçlara güvenmek size kalmıştır, ya da her zaman kaynak kodunu isteyebilirsiniz, ancak NIST karşılaştırmasıyla tüm satır içi prosedürleri hızlı bir şekilde test etmek daha kolay olacaktır.. Ben bunun bir olmadığı için sadece istatistik yapmanın iyi bir şekilde karşılık gelir sanmıyorum doğrudur rağmen yukarıda belirtilen listenin bir güncelleme olarak, istatistiksel yazılım (IMHO), MS Excel yeni sürümleri için doğruluğu gelişmeler göstermiştir görünüyor istatistiksel analizler, bkz. Keeling ve Pavur, Dokuz istatistiksel yazılım paketinin güvenilirliği üzerine karşılaştırmalı bir çalışma ( CSDA 2007 51: 3811).
Yine de, 10 veya 20'den bir tanesi (biyotıp, psikoloji, psikiyatride), bazen gri arka planı, yatay siyah çizgiyi veya otomatik efsaneyi (Andrew Gelman ve Hadley Wickham) çıkarmadan Excel ile yapılan grafikleri içerir. gördüğümde bana). Ancak daha genel olarak, bana FlowingData'daki son ankete göre en çok kullanılan "yazılım" olma eğilimi var , bu bana eski bir Brian Ripley konuşmasını hatırlatıyor (MASS R paketini birlikte yazan ve desen tanıma hakkında mükemmel bir kitap yazdı) , diğerleri arasında):
Kendimizi kandırmayalım: İstatistikler için en yaygın kullanılan yazılım Excel (B. Ripley, Jan De Leeuw aracılığıyla), http://www.stats.ox.ac.uk/~ripley/RSS2002.pdf
Şimdi, istatistiklerinizi yapmanın hızlı ve kolay bir yolunu sağladığını düşünüyorsanız neden olmasın? Sorun şu ki, böyle bir ortamda hala yapılamayacak şeyler (ya da en azından oldukça zor). Bir kaçını söylemek gerekirse bootstrap, permütasyon, çok değişkenli keşifsel veri analizi düşünüyorum. VBA'da (ne bir komut dosyası ne de bir programlama dili değildir) çok yetkin olmadıkça, verilerdeki küçük işlemlerin bile R (veya Matlab veya Python altında daha iyi ele alındığını düşünmeye meyilliyim) örneğin data.frame ile). Her şeyden önce, Excel'in veri analisti için çok iyi uygulamaları desteklemediğini düşünüyorum (ancak herhangi bir "cliquodrome" için de geçerlidir, Medstats'ın veri işleme kaydını tutma gereği hakkındaki tartışmaya bakın,Analizleri ve veri düzenlemelerini belgeleme ) ve Pratik İstatistikler hakkındaki bu yazıyı bazı Excel tuzaklarını nispeten açıklayıcı buldum . Yine de, Excel için geçerlidir, GDoc'lara nasıl tercüme edildiğini bilmiyorum.
Çalışmanızı paylaşma hakkında, Github (veya kaynak kodu için Gist ) veya Dropbox'ın (EULA bazı insanları caydırıcı olsa da) çok iyi seçenekler (revizyon geçmişi, gerekirse hibe yönetimi vb.) Olduğunu düşünmeye eğilimliyim . Temelde verilerinizi ikili biçimde saklayan bir yazılımın kullanımını teşvik edemem. Ben R, Matlab, Stata, SPSS, ama benim görüşüme göre ithal edilebilir biliyorum:
- veriler kesinlikle başka bir istatistiksel yazılım tarafından okunabilen bir metin formatında olmalıdır;
- analiz yeniden üretilebilir olmalıdır, yani analiziniz için eksiksiz bir komut dosyası sağlamalısınız ve herhangi bir zamanda başka bir işletim sisteminde çalıştırılmalıdır (buradaki ideal duruma yaklaşıyoruz ...);
- kendi istatistiksel yazılımınız onaylanmış algoritmalar uygulamalıdır ve bunu istatistiksel modellemedeki mevcut en iyi uygulamaları yansıtacak şekilde güncellemenin kolay bir yolu olmalıdır;
- seçtiğiniz paylaşım sistemi sürüm oluşturma ve ortak çalışma olanaklarını içermelidir.
Bu kadar.