Bazılarınız istatistiksel çalışmanızı başkalarıyla paylaşmak ve paylaşmak için Google Dokümanlar e-tablosunu kullanıyor mu?


15

Çoğunuzun Google Dokümanlar'ın hala ilkel bir araç olduğunu düşündüğünü biliyorum. Matlab veya R ve Excel bile değil. Yine de, sadece bir tarayıcının işletim yeteneğini kullanan (ve çok farklı çalışan birçok tarayıcıyla uyumlu) bu web tabanlı yazılımın gücünde şaşkına döndüm.

Bu forumda aktif olan Mike Lawrence, Google Dokümanlar'ı kullanarak onunla oldukça süslü şeyler yapan bir e-tablo paylaştı. Şahsen Google Dokümanlar'da Excel'de orijinal olarak yapılmış oldukça kapsamlı bir hipotez testi çerçevesini (çok sayıda parametrik ve parametrik olmayan testler dahil) çoğalttım.

Herhangi birinizin Google Dokümanlar'ı denemesi ve ilginç uygulamalarda sınırlarını zorlamasıyla ilgileniyorum. Google Dokümanlar'da karşılaştığınız hataları veya kusurları duymakla da ilgileniyorum

Bunun için en iyi cevap olmadığını belirten bu soruyu "topluluk wiki için" olarak belirtiyorum. Her şeyden çok bir anket.


Mike Lawrence'ın sağladığı elektronik tabloya bağlantı verebilir misiniz?
Andy W


1
Google dokümanları, resmi olarak test edildiğinde, çoğu istatistiksel hesaplamada (hiçbir zaman yapabileceği zaman) sefil performans gösterdi. Bkz. Kellie B. Keeling ve Robert J. Pavur (2011): Elektronik Tablo Yazılımının İstatistiksel Doğruluğu, Amerikalı İstatistikçi, 65: 4, 265-273
whuber

Yanıtlar:


12

Google e-tabloları için ana kullanımım veri toplamak ve daha sonra kolayca R'ye aktarmak için google formları ile oldu. İşte yarım yıl önce hakkında yazdığım bir yazı:

Google e-tabloları + google formları + R = Analiz için verileri kolayca toplama ve içe aktarma

Ayrıca, birlikte çalışıyorsanız, benim seçim aracım DropBox. Birkaç ay önce bu konuda bir yazı yazdım:

DropBox kullanarak dosyaları bilgisayarlar arasında senkronize etme

Şu anda 5 ortak yazarlı bir projede yaklaşık yarım yıldır kullanıyorum ve çok değerli oldu (3 katılımcıdan veri dosyalarını senkronize etmek, herkes ürettiğim çıktının en son sürümünü görebilir ve herkes arıyor makale için aynı .docx dosyasında).

Her iki gönderi de video eğitimleri ve sözlü talimatlar sunar.


geri bildiriminiz için teşekkürler. Bu, ilgilendiğim yorumların tam türüdür. Google dokümanlarının paylaşım ve içe aktarma bileşeninden gerçekten yararlandınız. Aferin. Daha fazla bilgi edinmek için materyallerinizi okuyacağım.
Sympa

Sevgili Gaetan, Cevabınızdan çok memnunum - nazik sözler için teşekkür ederim. En iyisi Tal.
Tal Galili

19

R, bash, Python, asciidoc, (La) TeX, açık kaynak kodlu yazılım veya herhangi bir un * x aracının meraklı bir kullanıcısı olarak, objektif bir cevap veremiyorum. Dahası, sık sık MS Excel veya herhangi bir tür elektronik tablo kullanımına karşı tartıştığım gibi (verilerinizi veya bir kısmını görüyorsunuz, ama başka ne var?), Tartışmaya olumlu katkıda bulunmam. Sadece ben değilim, örneğin

Bir meslektaşım, geriye dönük uyumluluk vb. Nedeniyle tüm makrolarını kaybetti. Başka bir meslektaşım, sadece "onlara bakmak" için genetik verileri (800.000 işaretleyicide genotiplenmiş yaklaşık 700 denek, 120 Mo) almaya çalıştı. Excel başarısız oldu, Not Defteri de vazgeçti ... vi ile "onlara bakmak" ve hızlı bir şekilde bazı sed / awk veya perl komut dosyası ile verileri yeniden biçimlendirmek mümkün. Bu yüzden elektronik tabloların yararlılığı hakkında tartışırken dikkate alınması gereken farklı düzeyler olduğunu düşünüyorum. Ya küçük veri kümeleri üzerinde çalışıyorsunuz ve yalnızca temel istatistiksel öğeleri uygulamak istiyorsunuz ve belki de sorun değil. Ardından, sonuçlara güvenmek size kalmıştır, ya da her zaman kaynak kodunu isteyebilirsiniz, ancak NIST karşılaştırmasıyla tüm satır içi prosedürleri hızlı bir şekilde test etmek daha kolay olacaktır.. Ben bunun bir olmadığı için sadece istatistik yapmanın iyi bir şekilde karşılık gelir sanmıyorum doğrudur rağmen yukarıda belirtilen listenin bir güncelleme olarak, istatistiksel yazılım (IMHO), MS Excel yeni sürümleri için doğruluğu gelişmeler göstermiştir görünüyor istatistiksel analizler, bkz. Keeling ve Pavur, Dokuz istatistiksel yazılım paketinin güvenilirliği üzerine karşılaştırmalı bir çalışma ( CSDA 2007 51: 3811).

Yine de, 10 veya 20'den bir tanesi (biyotıp, psikoloji, psikiyatride), bazen gri arka planı, yatay siyah çizgiyi veya otomatik efsaneyi (Andrew Gelman ve Hadley Wickham) çıkarmadan Excel ile yapılan grafikleri içerir. gördüğümde bana). Ancak daha genel olarak, bana FlowingData'daki son ankete göre en çok kullanılan "yazılım" olma eğilimi var , bu bana eski bir Brian Ripley konuşmasını hatırlatıyor (MASS R paketini birlikte yazan ve desen tanıma hakkında mükemmel bir kitap yazdı) , diğerleri arasında):

Kendimizi kandırmayalım: İstatistikler için en yaygın kullanılan yazılım Excel (B. Ripley, Jan De Leeuw aracılığıyla), http://www.stats.ox.ac.uk/~ripley/RSS2002.pdf

Şimdi, istatistiklerinizi yapmanın hızlı ve kolay bir yolunu sağladığını düşünüyorsanız neden olmasın? Sorun şu ki, böyle bir ortamda hala yapılamayacak şeyler (ya da en azından oldukça zor). Bir kaçını söylemek gerekirse bootstrap, permütasyon, çok değişkenli keşifsel veri analizi düşünüyorum. VBA'da (ne bir komut dosyası ne de bir programlama dili değildir) çok yetkin olmadıkça, verilerdeki küçük işlemlerin bile R (veya Matlab veya Python altında daha iyi ele alındığını düşünmeye meyilliyim) örneğin data.frame ile). Her şeyden önce, Excel'in veri analisti için çok iyi uygulamaları desteklemediğini düşünüyorum (ancak herhangi bir "cliquodrome" için de geçerlidir, Medstats'ın veri işleme kaydını tutma gereği hakkındaki tartışmaya bakın,Analizleri ve veri düzenlemelerini belgeleme ) ve Pratik İstatistikler hakkındaki bu yazıyı bazı Excel tuzaklarını nispeten açıklayıcı buldum . Yine de, Excel için geçerlidir, GDoc'lara nasıl tercüme edildiğini bilmiyorum.

Çalışmanızı paylaşma hakkında, Github (veya kaynak kodu için Gist ) veya Dropbox'ın (EULA bazı insanları caydırıcı olsa da) çok iyi seçenekler (revizyon geçmişi, gerekirse hibe yönetimi vb.) Olduğunu düşünmeye eğilimliyim . Temelde verilerinizi ikili biçimde saklayan bir yazılımın kullanımını teşvik edemem. Ben R, Matlab, Stata, SPSS, ama benim görüşüme göre ithal edilebilir biliyorum:

  • veriler kesinlikle başka bir istatistiksel yazılım tarafından okunabilen bir metin formatında olmalıdır;
  • analiz yeniden üretilebilir olmalıdır, yani analiziniz için eksiksiz bir komut dosyası sağlamalısınız ve herhangi bir zamanda başka bir işletim sisteminde çalıştırılmalıdır (buradaki ideal duruma yaklaşıyoruz ...);
  • kendi istatistiksel yazılımınız onaylanmış algoritmalar uygulamalıdır ve bunu istatistiksel modellemedeki mevcut en iyi uygulamaları yansıtacak şekilde güncellemenin kolay bir yolu olmalıdır;
  • seçtiğiniz paylaşım sistemi sürüm oluşturma ve ortak çalışma olanaklarını içermelidir.

Bu kadar.


@Gaetan Yanıtımın yanı sıra + 1'mi soruya verdim çünkü istatistiksel uygulama ve proje yönetimi ile ilgili tartışmalar için çok alakalı olduğunu düşünüyorum.
chl

Downvote için bir yorum çok takdir edilecektir.
chl

@chl: Bu cevabı küçümsememiş olmama rağmen, birinin neden cevabı düşüreceğini anladığımı düşünüyorum. Verdiğiniz bilgiler doğru, çok çok önemli ve düşündürücü. ANCAK, çoğu (son iki paragraf hariç) soruyu cevaplamıyor. İdeal olarak, bu büyük feragatname başka bir yere yazılır ve bir bağlantı verilir.
Boris Gorelik

@chl: Yorumumda söylediklerime rağmen, cevabınızı seviyorum ve oy verin
Boris Gorelik

@bgbg Yorumunuz için teşekkürler. Belki CW sorusuna cevap vermedim. Ancak, asla tamamen kışkırtıcı bir cevap vermek istemedim. OP, GDoc'larda potansiyel "hatalar ve kusurlar" hakkında sorular sordu: Excel'den bildiklerimle ilgili GDO'lara nasıl tercüme edileceğini bilmediğimi kabul ederek örnekler veriyorum. Ayrıca sorunun bir kısmını "veri analizi için GDoc kullanmanın yararları nelerdir" olarak anlıyorum ve sadece büyük ölçekli projeler için elektronik tablo kullanımına veya kanayan kenardaki analizlere karşı bazı argümanlar verdim (yine de, bunun önyargılı olacağını düşünüyoruz).
chl

10

"Google Dokümanlar'da karşılaştığınız hataları veya kusurları da duymak istiyorum."

Sadece orijinal sorunun o kısmına cevap vereceğim. Google Dokümanlar Elektronik Tabloları (GSheets) ile yaptığım keşifler, matematiksel ve istatistiksel işlevlerle ilgilendi. Sonunda değerlendirmem, Google E-Tablolar'ın bu açıdan, 2012'de 1997'deki kötü huylu Excel'den çok daha düşük olduğu yönündedir.

Tanık: Google E-Tablolar, erfc (x) 'in 1'e yakın olduğu bağımsız değişkenler için erfc (x) = 1-erf (x) kullanarak erfc (x)' i değerlendiriyor gibi görünüyorlar. ortalamanın; kötü sayısal bir uygulamadır. Kombinatorik fonksiyonlar ve poisson (n, x) = pow (x, n) * exp (-x) / n gibi ayrık olasılıklar! faktöre göre değerlendirilerek gereksiz taşmaya neden olur. Faktöriyel, Stirling'in faktör katsayısı kullanılarak değerlendirilir ve daha fazla gereksiz yere taşmaya neden olur. Kümülatif Poisson dağılımı basitçe sonlu toplam yapılarak değerlendirilir, böylece normalizasyon özelliği yuvarlamada kaybolur; kümülatif binom dağılımı için de aynısı geçerlidir. Kümülatif normal dağılım tamamen berbat durumda; [0,1] aralığının dışında kalıyor. Aynı işlevlerin diğer paketlerde uygulanmasına ilişkin genel bir doğruluk kaybı vardır. Yuvarlama gibi temel işlevlerin açıklamaları genellikle bozuk ve anlaşılmazdır; yorum bir tahmin oyunudur.

Bu sorunları Google Dokümanlar ürün forumlarında iki grup yayında belgeledim:

(2011-11-13 ve sonrası) normdist negatif değer atmaya devam ediyor https://productforums.google.com/d/topic/docs/XfBPtoKJ1Ws/

(2012-05-06 ve üstü) GSheets'teki istatistiksel ve matematiksel işlevlerle ilgili hatalar ve diğer sorunlar https://productforums.google.com/d/topic/docs/rxFCHYeMhrU/


1
(+1) Başka bir deyişle, Google'daki ( birçok! ) İstatistikçinin bu projeye hiçbir şekilde dahil olmadığı açıktır .
kardinal

Kullandığım Google Dokümanlar'ın tek kısmı, gerçek zamanlı olarak birlikte düzenleme yaparken çok yararlı olan editör . Git ve arkadaşlarımın bu sorunu çözdüğünü sanmıyorum!
kjetil b halvorsen
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.