Excel veri bilimi için yeterli mi?


10

R programlama dilini kullanarak veri bilimi üzerine bir giriş dersi vermeye hazırlanıyorum. Dinleyicilerim iş konularında uzmanlaşan lisans öğrencileri. Tipik bir işletme lisans programı herhangi bir bilgisayar programlama deneyimine sahip değildir, ancak Excel kullanan birkaç ders almıştır.

Kişisel olarak, R (veya diğer programlama dilleri) ile çok rahatım çünkü bilgisayar bilimi üzerine yoğunlaştım. Ancak, öğrencilerimin çoğunun programlama dilini öğrenmeye karşı temkinli hissedeceklerine inanıyorum çünkü onlar için zor görünebilir.

Excel'e biraz aşinam var ve inanıyorum ki Excel basit veri bilimi için yararlı olsa da, öğrencilerin veri bilimi için ciddi bir programlama dili (örneğin, R veya Python) öğrenmeleri gerekiyor. Kendimi ve öğrencileri Excel'in veri bilimi okuyan ciddi bir işletme öğrencisi için yetersiz olduğuna ve bazı programlama öğrenmeleri gerektiğine nasıl ikna edebilirim?

Yoruma yanıt olarak düzenlendi

Burada ele alacağım konulardan bazıları:

  • Veri işleme ve veri temizleme
  • Bir veri tablosunu değiştirme, örneğin, bir satır alt kümesi seçme (filtre), yeni değişkenler ekleme (mutasyona uğrama), satırları sütunlara göre sıralama
  • Dplyr paketini kullanarak SQL birleşimleri
  • Ggplot2 paketini kullanarak çizimleri (saçılma çizimleri, çubuk çizimleri, histogramlar vb.) Çizme
  • Doğrusal regresyon, lojistik regresyon, sınıflandırma ağaçları ve k-en yakın komşuları gibi istatistiksel modelleri tahmin etme ve yorumlama

Excel'i çok iyi bilmediğim için, tüm bu görevlerin Excel'de kolayca yapılıp yapılamayacağını bilmiyorum.


Müfredatınızda ne olduğunu bilmeden bu soruya cevap verilemez. Bunu söyledikten sonra, Excel'deki Power Pivot / Data Model'e bir göz atmalısınız. Bugünlerde Excel'de milyonlarca satır içeren çok gigabaytlık veri kümelerini kolayca işleyebilirsiniz ve hızlıdır.
Gaius

@Gaius Ben kursuna öğretmek istediğini bazı ayrıntılar ekledi
Kod Seviyorum

1-4 puanlarınız Veri Modeli support.office.com/en-us/article/… tarafından iyi bir şekilde desteklenmektedir - 5. nokta için AzureML studio.azureml.net
Gaius

AzureML ayrıca R btw
Gaius

4
Son noktanız hakkında - John Foreman'ın "Data Smart" adlı kitabına bir göz atın - amazon.com/Data-Smart-Science-Transform-Information/dp/…
Gregory Demin

Yanıtlar:


8

Her şeyden önce bu gönderiye göz atın . Excel'in veri bilimi görevleri ile ilgili diğer çözümlerden daha düşük olmasının birçok nedeni vardır. Excel ayrıca büyük veri kümelerini (yüz binlerce kayıt - Büyük Veri civarında hiçbir şeyden bahsetmemek için ), görüntü ve ses verilerini işleyemez .

Excel, elektronik tablolarla ilgili basit görevler için iyidir; Verileri gerçekten analiz etmek için minimum desteğe sahip olurken sunum ve kullanım kolaylığı üzerinde daha fazla vurgu yapar . Tüm yapmak istediğiniz basit istatistiksel ölçümleri (ortalama, ortalama, vb.) Hesaplamak veya çok basit bir model (örn. Doğrusal regresyon) oluşturmak değilse, Excel verimsizdir. Bununla birlikte, bir şirketin ilgili verilerle uğraşması gereken işin% 99'u Excel üzerinden yönetilebilecek kadar basittir.

Bununla birlikte, Veri Bilimi , üstünlükle başa çıkmak için donanımlı olmayan regresyon, sınıflandırma ve karmaşık modellerle ilgilenir! Öğrencileriniz veri bilimine bakmak isterse, onlara faydalı olacak bir araç (R, python vb.) Öğretmeniz gerekir. Bu diller ayrıca, "oynamak için" tonlarca yerleşik model içeren kütüphanelere sahiptir.

İkinci seçeneklerle gitmek için bir başka gerçekten büyük nedeni, açık kaynak olmasıdır . Kişisel olarak açık kaynaklı yazılımların eğitim açısından özel çözümlere tercih edilmesi gerektiğini hissediyorum (bu yüzden Matlab yerine python ve R'yi öneriyorum)!


Yukarıdakilerin hepsine katılıyorum, ama iş dalında olduklarını söyledi. Neden R'yi öğretmiyor, aynı zamanda bir R / Excel eklentisi gösterdiğinizden emin misiniz?
CalZ

1
"Excel ayrıca büyük veri kümelerini (yüz binlerce kayıt) işleyemez <- evet, kolayca yapabilir. Ve AzureML ve PowerBI gibi ciddi arka uçlara istemci olarak davranabilir. Excel değilim "çok ama temel araçları bile bilmeyen" veri güdümlü "insanları görmek beni şaşırtıyor.
Gaius

1
Ya bir "satır" veri kümesi artı binlerce sütun, aynı "temel" makinede (16 gb ram, i7 ecc), hangi çözüm daha hızlı açar? Excel'i aşağılamaya çalışmıyorum, sadece dürüst bir merakla. Bildiğim kadarıyla böyle bir veri kümesini Excel'de bile açamıyorum. RStudio aynı bilgisayarda sorunsuz bir şekilde okur.
RLave

7

Business Analytics alanında Master yaptım ve anlattığınız aynı sorunla karşı karşıya kaldım. Neyse ki teknik bir kişiyim ve kendime R ve Python'u öğretebildim, ancak sınıfın geri kalanını R ve Python'un nasıl kullanılacağını öğretmek zorunda kaldım. R / Python'u kullandığım sınıflar, öğrencilerin teknik anlayış eksikliği nedeniyle engellendi ve R / Python'un nasıl açılacağı konusunda çok fazla zaman harcandı. Diğer rotaya giden sınıflar çok zorlayıcıydı ve çok pratik değildi. Bir sınıf projesi için, sınırlamaları nedeniyle Excel'de yapılamayan bir şey yapmak istedim, ancak öğretmen başka hiçbir aracı kabul etmeyecekti.

Hemen yapabileceğiniz bir şey olmayabilir, ancak kursa başlamadan önce bölümün bir programlama kursu gerektirmesini sağlamanızı şiddetle tavsiye ederim. Veri Bilimi ve İş Analitiği IMHO, iyi bir Bilgisayar Bilimi gerektiren disiplinler arası derece yolları olmalıdır, ancak programlar olgunlaşana ve üniversite sistemi iyileşene kadar bir süre olmayabilir.


"Sınıf projesi için, sınırlamaları nedeniyle Excel'de yapılamayan bir şey yapmak istediğinizi" söylediniz. Excel'de yapılamayan ne yapmaya çalışıyordunuz?
I Like Kodu

3

Onlara Python veya R gibi popüler bir Veri Bilimi dili öğretmeniz gerektiğini düşünüyorum. Excel onlara gerçek bir işte yardımcı olmayacak ve veri bilimi amaçları için pratik değil. Muhtemelen Python'un uzun vadede onlar için en değerli olacağını söyleyebilirim ve scikit-learn gibi paketlerle regresyonlarınız ve sınıflandırmanız daha kolay okuyabilecekleri ve anlayabilecekleri çok az kod satırında gösterilebilir. Sadece okuyarak R'nin ne yaptığını anlamak her zaman kolay değildir.

Başka bir öneri: Öğrencilerinizi bir IDE kurmaya ve gerekli paketleri indirmeye zorlamak için zaman kaybetmeyin, eğer gerekli tüm paketlerle onlar için sanal bir ortam oluşturmak ve pycharm gibi bir IDE ( bunu ve diğer IDE'leri bir öğrenci / akademik lisans altında edinin), ardından kodlarını konsoldan ziyade UI aracılığıyla geliştirebilir ve çalıştırabilirler. R rotasında ilerlerseniz, onlar için RStudio gibi bir IDE ayarladığınızdan ve tüm içerme ve paket yüklemelerinin örnek kodunuza dahil edildiğinden veya tam olarak açıklandığından emin olun.


“Excel onlara gerçek bir işte yardım etmeyecek” kesinlikle tüm meslektaşlarının kullandığı şey buysa. Deneyiminizde hangi gerçek işler Excel kullanmıyor?
Gaius

3
Büyük miktarda veri ile çalışan herhangi bir Veri Bilimi rolü, benim dahil. Hangi DS işlerinin Excel'i birincil aracı olarak kullanacağını düşünüyorsunuz?
Dan Carter

Profilinizden öğrenci olduğunuzu görüyor musunuz? Ah. Bunlar DS'de bir ders alan işletme öğrencileri. İş işlerinde Excel'i kesinlikle birincil aracı olarak kullanacaklar.
Gaius

1
Elbette, Excel'i bir işletme türü rolünde kullanacakları konusunda haklısınız, ancak OP'nin açıkça belirttiği gibi: zaten Excel'i kapsayan kurslar almışlardır. Bunu Excel'in endüstri veya akademik Veri Bilimi için yeterli olmadığı gerçeği ile birleştirin ve dediğim gibi, onlara 'Veri Bilimi için Excel' öğretmenin gerçek bir işte onlara yardımcı olmayacağı açıktır. Bir erkeğe (veya kadına) balık tutmayı Fransızca konuşmayı öğreterek öğretemezsiniz.
Dan Carter

Peki Excel'de zaten ders almışlarsa ne olacak? R'yi öğrenemeyen kararsızlar gibi davranmayın. Burada Haskell veya LISP'den bahsetmiyoruz!
Emre

2

Kendimi ve öğrencileri Excel'in veri bilimi okuyan ciddi bir işletme öğrencisi için yetersiz olduğuna nasıl ikna edebilirim?

R'de büyük bir data.frame oluşturun (çift milyon satır ve yüzlerce sütun) .xlsx olarak kaydedin.

Onlara R ile ve Excel'de aynı makineye yüklenirken zaman farkını gösterin. Aynı veri kümesindeki ikisi, hatta grafikleri arasındaki temel istatistik işlemlerini karşılaştırın.

Nokta no. 2-4 listenizde Excel'de de yapılabilir, sadece çok daha acı verici, onlara dplyrtemel Excel'e kıyasla , ne kadar basit (ve daha hızlı) ile filtrelendiğine dair birkaç örnek gösterin , bu büyük bir veri kümesinde fark.

Bonus noktası ile PC'nizi Excel gidiyor çöküyor bir veri kümesi ile gelebilir.

Ayrıca, R (veya Python) 'un "kullanımı ücretsiz" bölümünü de uygularım. Örneğin, SAS ile karşılaştırıldığında, sadece bir çözümü (yani bir tür kümeyi) denemek istiyorsanız, kütüphaneyi yüklersiniz ve denersiniz, sadece denemek için daha fazla ödeme yapmanıza gerek yoktur.

Benim için bunun güzelliği, ihtiyacınız olan her şeyi ücretsiz olarak deneyebilirsiniz ve genellikle DS'deki anahtar, yüklediğiniz her kütüphane için ödeme yapmanız gerekip gerekmediğini hayal edin.


1

Excel ve Veri Bilimi - kulağa gerçekten garip geliyor. Belki Excel ve 'Veri Analizi'.

Her neyse, Excel ve R arasında iyi bir uzlaşma olduğunu düşünüyorum: KNIME ( http://www.knime.org/knime-analytics-platform ). Masaüstünde ücretsiz ve başlamak çok daha kolay. Excel'e içe / dışa aktarabilir, ancak ~ 1.000 düğümleri ihtiyacınız olan bazı işlevleri kaçırırsa R, Python veya Java da kullanabilirsiniz. İş akışları görsel olarak oluşturulduğundan, bunları herhangi bir programlama dili bilmeyen birine göstermek çok daha kolaydır - bu, bazı şirketlerde oldukça avantajlıdır.


0

Bence sorun, öğrencilerinizi sınıfınızı alarak modern veri bilimi seviyesine benzer bir veri bilimi, yani görüntü işleme, yüz tanıma gibi süslü şeyler yapabildikleri konusunda ikna etmeye çalışmanızdır. Bunu çoğu zaman söyleyerek duyarsınız, "bu sınıfı alarak, sen ..." Onlara öğretmek için ihtiyaç duyduğun şey, veri sevgisi ve bir grup veriye bakma cesareti, umarım yapmak için onlarla uğraşmaktır. onlardan bir anlam çıkar. Bunu yapabildikleri an, onlara veri bilimcileri diyebilirsiniz ve yeni nesil veri bilimcilerine sahip olduğunuz için kendinizle gurur duymalısınız. Bundan sonra, eğer veri bilimi konusunda çok ciddiylerse, matematik, istatistik ve bilgisayar bilimi ile ilgili diğer yoğun dersleri alabilirler (sizin gibi programlama deneyimi). Ben öğrencilerinize benzer bir durumdaydım. CS geçmişim yoktu, ancak bazı fantastik sözlerle çevrimiçi dersler alarak veri bilimine ve yapay zekâya girmek istedim. Tonlarca para harcadım ama kendimi çok büyük bir hayal kırıklığı içinde buldum (oh, bu algoritmayı bilmek için bu sınıfı almalıyım, oh şimdi sinir ağları hakkında konuşuyorlar, bu yüzden diğer sınıfa kaydolmam gerekiyor, vb.) TL ; DR. Araçlar, yaşadığınız sorunun% 1'ini oluşturur. Arka planınızla, bir hafta içinde Excel'deki yukarıdaki görevleri çözmede sorun yaşamamalısınız. şimdi sinir ağları hakkında konuşuyorlar, bu yüzden diğer sınıfa kayıt olmak zorundayım vb.) TL; DR. Araçlar, yaşadığınız sorunun% 1'ini oluşturur. Arka planınızla, bir hafta içinde Excel'deki yukarıdaki görevleri çözmede sorun yaşamamalısınız. şimdi sinir ağları hakkında konuşuyorlar, bu yüzden diğer sınıfa kayıt olmak zorundayım vb.) TL; DR. Araçlar, yaşadığınız sorunun% 1'ini oluşturur. Arka planınızla, bir hafta içinde Excel'deki yukarıdaki görevleri çözmede sorun yaşamamalısınız.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.