Bir istatistik tezgahı olarak Excel


52

Görünüşe göre birçok insan (ben dahil) Excel'de keşifsel veri analizi yapmak istiyor. Bir e-tabloda izin verilen satır sayısı gibi bazı sınırlamalar acı vericidir, ancak çoğu durumda verileri Excel ile oynamayı imkansız kılmaz.

Bununla birlikte, McCullough ve Heiser tarafından yazılmış bir makale , pratik olarak, sonuçlarınızın yanlış olduğunu - ve muhtemelen cehennemde de yanacağınızı - Excel'i kullanmaya çalıştığınızı söylüyor.

Bu makale doğru mu yoksa önyargılı mı? Yazarlar, Microsoft'tan nefret ettikleri gibi ses çıkarıyorlar.


5
İstatistiksel hesaplamalar için elektronik tablo yazılımının doğruluğunun yakın bir analizi [Kellie B. Keeling ve Robert J. Pavur (2011): Elektronik Tablo Yazılımının İstatistiksel Doğruluğu, Amerikan İstatistikçisi, 65: 4, 265-273] (şu anda ücretsiz indiriliyor) amstat.tandfonline.com/doi/pdf/10.1198/tas.2011.09076 adresinde bulunabilir . Sonuçlar karışık ve belki biraz şaşırtıcı. Kayda değer Excel 2007 ve Excel 2010 ( RSAS ya da SAS'dan daha doğru görünüyor) arasındaki dağılım hesaplamalarındaki büyük gelişmedir .
whuber

Yanıtlar:


45

Doğru iş için doğru aleti kullanın ve aşina olduğunuz aletlerin gücünden yararlanın.

Excel'in durumunda bazı göze çarpan sorunlar var:

  • Verilerinizle uyuşsa bile, verileri yönetmek için lütfen bir elektronik tablo kullanmayın. Sadece sorun mu soruyorsun, korkunç bela. Tipografik hatalara, verilerin toptan karışmasına, veri değerlerinin kesilmesine vb. Karşı neredeyse hiçbir koruma yoktur.

  • İstatistiksel işlevlerin çoğu gerçekten bozuldu. T dağılımı bunlardan biridir.

  • Varsayılan grafikler berbat.

  • Bazı temel istatistik grafikleri, özellikle de kutu ve histogramlar eksik.

  • Rastgele sayı üreteci bir şakadır (ancak buna rağmen hala eğitim amaçlı etkilidir).

  • Üst düzey işlevlerden ve eklentilerin çoğundan kaçının; Onlar c ** p. Ancak bu güvenli bilgisayarların genel bir prensibidir: bir işlevin ne yaptığından emin değilseniz, kullanmayın. Düşük seviyeli olanlara bağlı kalın (bunlar aritmetik fonksiyonlar, sıralama, exp, ln, trig fonksiyonları ve - sınırlar dahilinde - normal dağılım fonksiyonları). Asla grafik üreten bir eklenti kullanmayın: çok korkunç olacak. (Not: Sıfırdan kendi olasılık parsellerinizi yaratmanız çok kolaydır. Doğru ve çok özelleştirilebilir olurlar.)

Kendi lehine olsa da, aşağıdaki gibidir:

  • Temel sayısal hesaplamalar, çift duyarlıklı yüzdürmeler olabildiğince doğrudur. Bunlar, log gama gibi bazı faydalı olanları içerir.

  • Bir elektronik tablodaki giriş kutularının etrafına bir kontrol sarmak oldukça kolay ve böylece dinamik simülasyonları kolayca oluşturabilirsiniz.

  • Bir hesaplamayı istatistiksel olmayan insanlarla paylaşmanız gerekiyorsa, çoğu ne kadar ucuz olursa olsun, bir elektronik tablo ile bir miktar rahatlık elde edecek ve hiçbirinde istatistiksel yazılım kullanmayacaksınız.

  • VBA'ya oldukça yakın olan eski Fortran kodunu taşımak da dahil olmak üzere etkili sayısal makrolar yazmak kolaydır. Ayrıca, VBA'nın yürütülmesi oldukça hızlıdır. (Örneğin, merkezi olmayan t dağılımlarını sıfırdan doğru bir şekilde hesaplayan ve Hızlı Fourier Dönüşümlerinin üç farklı uygulamasını içeren bir kodum var.)

  • Bazı etkili simülasyonları ve Crystal Ball ve @Risk gibi Monte-Carlo eklentilerini destekler. (Bu arada kendi RNG'lerini kullanıyorlar - bu arada kontrol ettim.)

  • Doğrudan (küçük bir küme) veriyle etkileşime girmenin derinlikleri benzersizdir: Herhangi bir istatistik paketinden, Mathematica'dan, vb. Daha iyidir. Çok fazla depolama alanı olan dev bir hesap makinesi olarak kullanıldığında, bir elektronik tablo gerçekten kendine gelir.

  • İyi EDA, sağlam ve dirençli yöntemler kullanarak kolay değildir, ancak bir kez yaptıktan sonra, hızlı bir şekilde tekrar ayarlayabilirsiniz. Excel ile Tukey'nin EDA kitabındaki tüm hesaplamaları (sadece bazı alanlara rağmen), n-yönlü tabloların medyan cilası da dahil olmak üzere (biraz hantal olsa da) etkili bir şekilde çoğaltabilirsiniz .

Asıl soruya doğrudan cevap olarak, bu makalede bir önyargı var: Excel'in en zayıf olduğu ve yetkili bir istatistikçinin kullanım olasılığının düşük olduğu malzemesine odaklanıyor. Bu, gazetenin eleştirisi değildir, çünkü bunun gibi uyarıların yayınlanması gerekir.


7
@ whuber Artılarını ve eksilerini güzel ve kullanışlı bir bakış!
chl

4
+1 iyi ve dengeli. Özellikle Excel'in (veya elektronik tablonun en büyük satış noktası) olduğunu düşündüğüm "doğrudan etkileşimin dolaysızlığı" nı seviyorum. Kitleler için bildirimsel programlama - bazılarının neden dünyadaki iş mantığının% 80'inin Excel'de yazıldığını düşündüğünü açıklar (R v SAS veya Java v C ++ hakkında tartışan programcılara ve istatistikçilere dikkat etmek gerekir).
ars

2
Microsoft'un birkaç yıl önce Excel'deki bozuk fonksiyonları düzeltmek için bazı sayısal analistler kiraladığını duydum. Excel ile ilgili sorunların hala 2007'de mi yoksa 2010'da mı yapıldığını biliyor musunuz?
John D. Cook,

2
@Zach Örneğin, Excel 2002 kullanarak =TINV(2*p,df), p = 0 ile 0 arasında değişen p değerlerini hesaplayın ve bunları doğru değerlerle karşılaştırın. (Df ile 2 ile 32 arasında değişiyordum.) Hatalar altıncı anlamlı şekilde başlıyor ve p, 1 - 5 ya da daha düşük olduğunda patlıyor. P'nin bu değerleri küçük olsa da, test edilecek gerçekçi değerlerdir, çünkü çoklu karşılaştırma testleri ve merkezi olmayan t gibi t dağılımıyla ilgili değerleri hesaplamak için çok önemlidirler.
whuber

2
Sanırım ilk kurşun noktanızda yıldızların ve okların çıkması gerekiyor. Elektronik tablolar denetim izini sağlamaz; bu, birinin gerçekten güvendiği bir iş yapmayı düşünüyorsanız, kritik önem taşır. R, aksine, doğrudan bir denetim izi sağlamaz, ancak komutları kabul ettiğinden ve alma, ön işleme, işleme, grafik vb. Komutlarını ayrı bir dosyaya kaydedebileceğinizden, yaptığınız işlemin izini alabilirsiniz. Graph # 1'i alın ve aniden sorgulamak için bir nedeniniz olması durumunda, sıfırdan yeniden oluşturabilirsiniz.
Wayne

18

Biyoinformatik ayarında Excel kullanımı hakkında ilginç bir makale:

Hatalı Tanımlayıcılar: Gen adı hataları yanlışlıkla biyoinformatikte Excel kullanıldığında, BMC Biyoinformatik, 2004 ( link ).

Bu kısa makalede, Excel'deki otomatik tür dönüşümleri sorunu açıklanmaktadır (özellikle tarih ve kayan nokta dönüşümleri). Örneğin, Sept2 gen adı 2 Eylül'e dönüştürülür. Bu hatayı gerçekten çevrimiçi veritabanlarında bulabilirsiniz .

Orta ila büyük miktarda veri yönetmek için Excel kullanmak tehlikelidir. Hatalar, kullanıcının dikkatini çekmeden kolayca sürünebilir.


6
Bu, beni en çok rahatsız eden Excel'in uzak ve uzak bir yönü. Veri depolama, biçimlendirmeye değil, açık veri türlerine ihtiyaç duyar.
Matt Parker

3
Aslında, bu beni genel olarak rahatsız eden MS yazılımı hakkında bir şeydir: girişinizi aslında ne anlama geldiğine inandığına göre değiştirir ve genellikle bunun gerçekleştiğini bile görmezsiniz.
Carlos Accioly,

@csgillespie (+1) Excel'i bu açıdan duymak güzel!
chl

6
En sevdiğim hata, Excel başka biçimlere verme sırasında alanları sessizce kesmek için kullanıldığında ortaya çıktı. Topraktaki pestisit konsantrasyonları dosyasında, ilk haneyi keserek 1.000.050 (olağanüstü derecede toksik) değerini 50'ye (neredeyse eşitsiz) dönüştürdü!
whuber

@Matt'ı sadece çıldırtan, Excel'de "veri depolayan" varsa. Excel'i tamamen raporlama ve grafik oluşturma için bir ön uç olarak kullanırken harika bir özellik.
Anonymous Type

11

Kağıdın doğru mu yoksa yanlı mı olduğu sorusu kolay olmalı: Analizlerinin bir kısmını tekrarlayabilir ve aynı cevapları alıp almadığınızı görebilirsiniz.

McCullough birkaç yıldır MS Excel'in farklı sürümlerini ayırıyor ve görünüşe göre MS yıllar önce önceki sürümlerinde işaret ettiği hataları düzeltmek için uygun görmedi.

Excel'de verilerle uğraşırken bir sorun görmüyorum. Ama dürüst olmak gerekirse, "ciddi" analizlerimi Excel'de yapmam. Asıl sorunum yanlış olmaz (ki sanırım çok nadiren sorun olur sanırım) ama bir yıl sonra bir gözden geçiren veya patronum neden X yapmadığımı sorduğunda analizlerimi takip edip çoğaltmanın imkansızlığı - Çalışmak ve kör sokaklarınızı yorumlamak R kodu, ancak Excel'de anlamlı bir şekilde değil.


2
(+1) Medstats'taki veri düzenleme ve analiz kayıtlarının tutulması gerektiği konusundaki tartışmayı güzelce tekrarlıyorsunuz ( j.mp/dAyGGY )! Teşekkür.
chl

"İş ve kör sokaklarınızı" kurtarmak, Excel ile yapmaktan R'ye kıyasla daha zor değildir. Excel'in temel sorunu gücü ile ilgilidir: yanlışlıkla bir şeyi değiştirmek çok kolaydır. Fakat EDA için - OP'nin odağını - nadiren yaptığımız her şeyi kurtarırsak. Sonuçta EDA'nın etkileşimli
whuber

1
VB'de yaparsanız yöntemlerin tekrarlanabilir bir kaydını tutmak mümkündür, ancak Excel'in GUI odağı bu davranışı teşvik etmemektedir.
James

7

Bu arada, Google e-tablolarının kullanımıyla ilgili bir soru, bununla ilgili zıt ((ilginç, ilginç) görüşler ortaya çıkardı. Bazılarınız istatistiksel çalışmanızı yürütmek ve başkalarıyla paylaşmak için Google Dokümanlar e-tablosunu kullanıyor mu?

Bu kadar karamsar görünmeyen daha eski bir yazıyı aklıma getirdim , ancak bahsettiğiniz makalede yalnızca marjinal olarak bahsedilir: Keeling ve Pavur, Dokuz istatistik paketinin güvenilirliğinin karşılaştırmalı bir incelemesi (CSDA 2007 51: 3811). Ama şimdi, seninkini sabit diskimde buldum. Ayrıca 2008'de özel bir sorun vardı, bkz . Microsoft Excel 2007'deki Özel bölüm ve daha yakın bir zamanda İstatistiksel Yazılım Dergisi: Elektronik Tabloların Sayısal Doğruluğu Üzerine .

Uzun zamandır devam eden bir tartışma olduğunu düşünüyorum ve istatistiksel hesaplama için Excel'in güvenilirliği hakkında çeşitli makaleler / görüşler bulacaksınız. Farklı tartışma seviyeleri olduğunu düşünüyorum (ne tür bir analiz yapmayı düşünüyorsunuz, iç çözücüye güveniyor musunuz, belirli bir modele giren doğrusal olmayan terimler var mı?) Ve sayısal yanlışlıkların ortaya çıkabileceğini düşünüyorum. sonucunda uygun işlem hataları veya tasarım seçimleri konularında; Bu iyi özetlenmiştir

M. Altman, J. Gill ve MP McDonald, Sosyal Bilimler İçin İstatistiksel Hesaplamada Sayısal Konular , Wiley, 2004.

Şimdi, keşifsel veri analizi için, gelişmiş görselleştirme yetenekleri, çok değişkenli ve dinamik grafikler, örneğin GGobi gibi çeşitli alternatifler var - ancak bu wiki'deki ilgili konuları görün.

Ancak, açıkça belirttiğiniz ilk nokta, büyük veri setiyle uğraşmak için bir elektronik tablo kullanmak olan başka bir konuyu (IMO) ele almaktır: büyük bir csv dosyasını Excel'e aktarmak mümkün değildir (genomik veriyi düşünüyorum, fakat diğer yüksek boyutlu veri türleri için de geçerlidir). Bu amaç için inşa edilmemiştir.


"Farklı tartışma seviyeleri" nüansını seviyorum.
whuber

7

Makaleler ve diğer katılımcılar teknik zayıflıklara işaret ediyor. Whuber, güçlü yönlerinden en azından bazılarını ana hatlarıyla belirlemek için iyi bir iş çıkarır. Ben şahsen Excel'de kapsamlı istatistiksel çalışmalar yapıyorum (hipotez testleri, doğrusal ve çoklu regresyonlar) ve seviyorum. Kullandığım veri setlerinin yaklaşık% 100'ünü idare edebilecek 256 sütun ve 65.000 satır kapasiteli Excel 2003 kullanıyorum. Anlıyorum ki Excel 2007 bu kapasiteyi çok fazla artırdı (milyonlarca satır).

Whuber'in belirttiği gibi, Excel ayrıca oldukça güçlü ve kullanımı kolay olan çok sayıda olağanüstü eklenti yazılımı için bir başlangıç ​​platformu olarak hizmet vermektedir. Monte Carlo Simülasyonu için Crystal Ball ve @Risk'i düşünüyorum; Etrafında güçlü istatistikler ve veri analizi için XLStat; Optimizasyon için en iyisidir. Ve liste devam ediyor. Excel gibi bir IPod veya IPad ile oldukça inanılmaz Apps zillion eşdeğeri gibi. Verilen Excel Uygulamaları ucuz değil. Ancak, yapabilecekleri şeyler için genellikle oldukça iyi pazarlıklar.

Model dokümantasyonu söz konusu olduğunda, metodolojiniz, kaynaklarınız, vb. Hakkında tam anlamıyla bir kitap yazabileceğiniz bir metin kutusu eklemek çok kolaydır ... Herhangi bir hücreye yorum da ekleyebilirsiniz. Yani, eğer bir şey Excel gömülü belgeleri kolaylaştırmak için gerçekten çok iyi.


1
Ek puan için ve bakış açınızı paylaştığınız için teşekkür ederiz.
whuber

harika noktalar, birinin doğru şekilde kullandığını ve fayda sağladığını duymak güzel.
Anonymous Type

6

Excel, istatistikler için iyi değildir, ancak keşifsel veri analizi için harika olabilir. Bazı ilginç teknikler için bu videoya bir göz atın . Excel'in verilerinizi koşullu olarak renklendirmesi ve hücre içi çubuk grafikler ekleme yeteneği, ham verilerinizin yapısı hakkında mükemmel bilgiler verebilir.


6

Excel'i neden kullanmak istemediğinize dair iyi bir referans kaynağı:

Elektronik tablo bağımlılığı

Kendinizi gerçekten excel kullanmanız gereken bir durumda bulursanız (bazı akademik bölümler ısrar ediyor), o zaman Rexcel eklentisini kullanmanızı öneririm . Bu, Excel kullanarak arayüz oluşturmanıza izin verir, ancak R programını hesaplamalı motor olarak kullanır. Kullanmak için R'yi bilmeniz gerekmez, açılır menüleri ve diyalogları kullanabilirsiniz, ancak yaparsanız daha fazlasını yapabilirsiniz. R hesaplamaları yaparken, Excel'den çok daha güvenilirdir ve excel'den daha iyi grafiklere, kutulara ve diğer grafiklere sahip olursunuz. Excel'de otomatik hücre güncellemesiyle bile çalışır (her seferinde yeniden hesaplamak için çok karmaşık analizleriniz varsa işleri gerçekten yavaşlatabilir). Elektronik tablo bağımlılığı sayfasındaki tüm sorunları çözmez, ancak düz excel kullanımı üzerinde büyük bir gelişmedir.


1

Excel hem keşifsel veri analizi hem de doğru eklentilerle doğrusal regresyon analizi için harika olabilir. Bir çok ticari ürün var, ancak çoğu ürettikleri çıktının kalitesi açısından arzulanan bir şey bırakmış olsa da (Excel'in grafik seçeneklerinden veya diğer Office uygulamalarıyla bağlantı kurabilmekten tam anlamıyla yararlanamamaktadır) ve genel olarak veri görselleştirme ve sunumu için olabilecekleri kadar iyi değildirler. Ayrıca, (diğer şeylerin yanı sıra) işiniz için iyi belgelenmiş bir denetim izi tuttuğunuz disiplinli bir modelleme yaklaşımını desteklememe eğilimindedirler. İşte bu sorunların çoğunu ele alan "RegressIt" adlı bir ÜCRETSİZ eklenti: http://regressit.com. Keşif analizi için çok iyi destek sağlar (50'ye kadar değişkenle paralel zaman serileri çizimleri ve dağılım grafiği matrisleri oluşturma yeteneği dahil), gecikme, kayıt ve fark oluşturma gibi veri dönüşümlerinin uygulanmasını kolaylaştırır (genellikle uygulanmayan) (regresyonun saf kullanıcıları tarafından uygun bir şekilde), en iyi veri analizi uygulamalarını destekleyen çok ayrıntılı bir tablo ve çizelge çıktısı sağlar ve yan yana model karşılaştırmalarını kolaylaştıran ve yan yana model karşılaştırmalarını kolaylaştıran bir denetim izi çalışma sayfası tutar. hangi sırayla yerleştirildi. Çok değişkenli verilerle uğraşıyorsanız ve en azından çalışmanızın bir kısmı bir Excel ortamında gerçekleştiriliyorsa, başka ne kullanıyorsanız kullanın.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.