Veri bilimcisi nedir?


181

Doktora programımdan son zamanlarda istatistiklerden mezun olduktan sonra son birkaç aydır istatistik alanında iş aramaya başladım. Neredeyse her şirkette " Data Scientist " ünvanı olan bir iş ilanı vardı . Aslında, çoktan gitmiş gibi hissetmek, İstatistik Bilimcisi ya da İstatistikçi iş unvanlarını görmenin günleriydi . Veri bilimcisi olmak, istatistikçi olmanın yerini aldı mı ya da merak ettiğim başlıklar mıydı?

İşlerin niteliklerinin çoğu, istatistikçi unvanına uygun niteliklere sahipti. Çoğu iş, istatistik ( ), en çok gerekli deneysel tasarım ( ), doğrusal regresyon ve anova ( ), genelleştirilmiş doğrusal modeller ( ) ve PCA ( ) gibi diğer çok değişkenli yöntemleri anlama konusunda doktora istedi. ve ayrıca R veya SAS ( ) gibi istatistiksel bir bilgi işlem ortamındaki bilgiler . Bir veri bilimcisi gibi görünüyor gerçekten istatistikçiler için sadece bir kod adıdır.

Ancak, yaptığım her röportajda şu soruya başladım: "Makine öğrenme algoritmalarına aşina mısın?" Sık sık değil, kendimi büyük veriler, yüksek performanslı bilgi işlem ve sinir ağları, CART, vektör makinelerini destekleme, ağaçları artırma, denetlenmeyen modeller, vb. İle ilgili soruları denemek ve cevaplamak zorunda buldum. kalpte istatistiksel sorular, ancak her röportajın sonunda yardımcı olamadım, ancak bir veri bilimcisinin ne olduğu hakkında daha az şey bildiğimi hissediyorum.

Ben istatistikçiyim ama veri bilimcisi miyim? Bilimsel problemler üzerinde çalışıyorum, bu yüzden bilim adamı olmalıyım! Ayrıca verilerle çalışıyorum, bu yüzden bir veri bilimcisi olmalıyım! Ve Wikipedia'ya göre çoğu akademisyen benimle aynı fikirdeydi ( https://en.wikipedia.org/wiki/Data_science , vs.)

İş dünyasında "veri bilimi" teriminin kullanımı patlamış olsa da, birçok akademisyen ve gazeteci veri bilimi ile istatistik arasında bir fark görmüyor.

Fakat bir veri bilimci pozisyonu için tüm bu iş görüşmelerine devam edersem, neden bana asla istatistiksel sorular sormuyorlar gibi geliyor?

Son görüşmemden sonra iyi bir bilim adamının yapmasını istedim ve bu sorunu çözmek için veri aradım (hey, sonuçta veri bilimcisiyim). Bununla birlikte, birçok sayısız Google araması yapıldıktan sonra, bir veri bilimcisinin ne olduğunun tanımıyla bir kez daha boğuşuyormuşum gibi hissetmeye başladım. Bir veri bilimcisinin tam olarak ne olduğunu bildiğim için pek çok tanımı yoktu, ( http://blog.udacity.com/2014/11/data-science-job-skills.html , http: // www -01.ibm.com/software/data/infosphere/data-scientist/ ) ama herkes bana bir tane olmak istediğimi söylüyor gibiydi:

Günün sonunda, anladım ki "veri bilimcisi nedir" sorusu cevaplaması çok zor. Heck, Amstat'ta iki ay vardı, bu soruyu cevaplamaya çalışmak için zaman ayırdılar:

Şimdilik, veri bilimcisi olmak için seksi bir istatistikçi olmak zorundayım ama umarım çapraz onaylanmış topluluk biraz ışık tutabilir ve veri bilimcisi olmanın ne demek olduğunu anlamama yardımcı olabilir. Tüm istatistikçiler veri bilimcileri değil midir?


(Edit / Güncelleme)

Bunun sohbeti arttıracağını düşündüm. Amerikan İstatistik Kurumu'ndan Microsoft ile Veri Bilim Adamı arayan bir iş hakkında bir e-posta aldım. İşte link: Veri Bilimci Durumu . Bunun ilginç olduğunu düşünüyorum çünkü pozisyonun rolü, bahsettiğimiz birçok özel özelliğe dayanıyor, ancak bunların çoğunun, istatistiklerin yanı sıra aşağıda verilen cevapların çoğu ile çelişen çok titiz bir arka plan gerektirdiğini düşünüyorum. Bağlantının kesilmesi durumunda, Microsoft'un bir veri bilimcisinde aradığı özellikler şunlardır:

Temel İş Gereksinimleri ve Becerileri:

Analytics'i Kullanarak İş Etki Alanı Deneyimi

  • Karmaşık işletme problemlerini kavramsallaştırmak için eleştirel düşünme becerilerinin kullanımında ve büyük ölçekli gerçek dünyadaki iş veri setlerinde gelişmiş analitik kullanarak çözümlerini ilgili birçok işletme alanında deneyime sahip olmalıdır.
  • Aday, bağımsız bir şekilde analitik projeler yürütebilmeli ve şirket içi müşterilerimizin bulgularını anlamalarına ve işlerine fayda sağlamak için eyleme dönüştürmelerine yardımcı olmalıdır.

Tahmini Modelleme

  • Tahmini modellemede endüstriler arasında deneyim
  • Önemli problemleri ortaya çıkarmak ve sistem kapsamını tanımlamak için müşteri ile iş probleminin tanımı ve kavramsal modellemesi

İstatistik / Ekonometri

  • Sürekli ve kategorik veriler için keşif veri analizi
  • İşletme ve tüketici davranışları için yapısal model denklemlerinin belirlenmesi ve tahmini, üretim maliyeti, faktör talebi, kesikli seçim ve gerektiğinde diğer teknoloji ilişkileri
  • Sürekli ve kategorik verileri analiz etmek için gelişmiş istatistiksel teknikler
  • Zaman serileri analizi ve tahmin modellerinin uygulanması
  • Çok değişkenli problemlerle çalışma konusunda bilgi ve tecrübe
  • Model doğruluğunu değerlendirebilmek ve tanı testleri yapabilmek
  • İstatistik veya ekonomik modelleri yorumlayabilme
  • Kesikli olay simülasyonu oluşturma ve dinamik simülasyon modelleri hakkında bilgi ve tecrübe

Veri yönetimi

  • Veri dönüşümü için T-SQL ve analitik kullanımına ve çok büyük gerçek dünya veri kümeleri için keşif veri analizi tekniklerinin uygulanmasına aşinalık
  • Veri fazlalığı, veri doğruluğu, anormal veya aşırı değerler, veri etkileşimleri ve eksik değerler dahil veri bütünlüğüne dikkat.

İletişim ve İşbirliği Becerileri

  • Bağımsız çalışın ve zorlu iş sorunlarına yenilikçi çözümler araştıracak sanal bir proje ekibiyle çalışabilir
  • Ortaklarla işbirliği yapın, eleştirel düşünme becerileri uygulayın ve analitik projeleri baştan aşağı yönlendirin
  • Hem sözlü hem de yazılı olarak üstün iletişim becerileri
  • Analitik sonuçların görselleştirilmesi, çeşitli paydaşlar tarafından tüketilebilecek bir biçimde

Yazılım paketleri

  • Gelişmiş İstatistik / Ekonometrik yazılım paketleri: Python, R, JMP, SAS, Eviews, SAS Kurumsal Madenci
  • Veri keşfi, görselleştirme ve yönetim: T-SQL, Excel, PowerBI ve eşdeğer araçlar

Nitelikler:

  • Minimum 5+ yıl ile ilgili deneyim gerekli
  • Kantitatif alanda lisans üstü derecesi istenmektedir.

6
Güzel soru! Son zamanlarda bu konuyu oldukça merak ediyorum. Gözlerime göre, açıklamada veri bilimcisini içeren işler, mutlaka teoriyle başa çıkacak insanları değil, iyi ölçeklenen istatistiksel / ML yöntemlerini uygulayabilen insanları arıyor gibi görünüyor. Hala bu iş tanımlarında fazlalık olduğunu düşünüyorum. Doktora istemek büyük olasılıkla genellikle aşırı kalifiyedir ve bu iş tanımlarını yapan İK çalışanları büyük verilerin etrafındaki vızıltıdan büyük ölçüde etkilenir. Bir veri bilimcisi istatistikçi mi yoksa tersi mi cevaplandırılmasını istediğim asıl soru.
Gumeo

4
Bence bu istatistikçilere karşı bir veri bilimcisi
olmama

6
“Ama bir veri bilimci pozisyonu için tüm bu iş görüşmelerine devam edersem, neden bana asla istatistiksel sorular sormadıklarını hissettiriyor” ... hayatımın hikayesi ... kelimenin tam anlamıyla LOL !!! Veri bilimi, istatistik, ekonometri, biostat vb. önemli örtüşme var ama hepsi iletişimi zorlaştıran farklı bir jargon kullanıyorlar (özellikle bilgili olmayan ve anahtar kelimeler üzerinde yoğunlaşan bir İK personeli tarafından röportaj yaparken). Umarım disiplinler arası çabalar artmıştır ve ihtiyaç duyulan açık fikirlilik gelecekte bunu değiştirecektir.
Zachary Blumenfeld

9
Yaklaşık 2008'de ana akım haline geldiğinden beri "veri bilimcisinin yükselişini" izledim. Bana göre, bir yutturmaca ateşleyen bir pazarlama terimiydi - disiplinler istatistikleri, makine öğrenmesi, veri mühendisliği, veri analizi. farklı vurgu ile aynı. Paraphrasing G. Box: "Siz bir Bayesli, sık, veri analisti, deney tasarımcısı, veri bilimcisi misiniz?" Evet de".
Momo

10
@Momo: Bununla birlikte, biri "Makine öğrenmesi" (veya benzeri) adlı 600'den fazla sayfalık ders kitabından birini ve "İstatistikler" (veya benzeri) adlı bir ders kitabından birini açarsa, çok az çakışma olacaktır. Piskoposum Örüntü Tanıma ve Makine Öğrenimi veya Murphy'nin Makine Öğrenmesi , Lehman ve Casella Nokta Tahmin Teorisi , Casella & Berger İstatistiksel Çıkarım veya Maxwell & Delaney Tasarım Denemeleri ve Veri Analizi ile neredeyse sıfır kesişime sahiptir . Öyle farklılar ki, bir kitap kümesine aşina olan kişilerin diğerini okumakta zorlanabileceğini düşünüyorum.
amip

Yanıtlar:


52

Henüz verilmemiş birkaç komik tanım vardır:

Veri Bilimcisi: Mac'te istatistik yapan biri.

Bunu sevdim, maddeden daha yutturmaca açısıyla iyi oynuyor.

Veri Bilimcisi: San Francisco'da yaşayan bir istatistikçi.

Benzer şekilde, bu tüm bunların Batı Yakası'ndaki lezzetini de etkiler.

Şahsen, tartışmayı (genel olarak ve burada) biraz sıkıcı ve tekrarlayıcı buluyorum. Ne istediğimi düşündüğümde --- belki çeyrek asır veya daha uzun bir süre önce - kantitatif analisti hedefledim. Bu hala ne yapıyorum (ve seviyorum!) Ve çoğunlukla burada çeşitli cevaplarda verilenleri örtüşüyor ve anlatıyor.

(Not: İkinci teklif için daha eski bir kaynak var ancak şu anda bulamıyorum.)


27
+1. I find the discussion (in general, and here) somewhat boring and repetitiveve boşuna azar azar konuşmalardan ya da yeni vızıldayan kelimelerden eklerdim. Daha sonra veri bilimcileri, hristiyan bilimcileri ve veri bilimcileri arasında ayrım yapamıyorum.
ttnphns

1
LOL @ veri bilimcileri.
dsaxton

4
Ve ben şapkamı (elbette isimsiz) gelip çok az oy alan ve bir sebep bırakmayan Çok Ciddi Kişiye bahşiş verdim . İpucu: Tartışma böyle değil.
Dirk Eddelbuettel

1
Güney San Francisco'da, Data Scientist unvanıyla oldukça aktif bir şekilde mücadele eden bir istatistikçi olan ikinci tanım, eve çok yakın (ama en önemsiz değildim).
Cliff AB

1
(+1) @CliffAB Güney San Francisco'da da bir istatistikçiyim.
RustyStatistician

87

İnsanlar Veri Bilimini farklı şekilde tanımlıyorlar, ancak bence ortak kısım şu:

  • veri ile nasıl başa çıkılacağına dair pratik bilgiler,
  • pratik programlama becerileri

Adının aksine, nadiren "bilim". Yani, veri biliminde vurgu, pratikte (mühendislikte olduğu gibi) kanıtlar, matematiksel saflık veya akademik bilime özgü titizlik değil. İşlerin çalışması gerekiyor ve eğer akademik bir belgeye, mevcut bir kütüphanenin kullanımına, kendi kodunuza veya doğaçlama bir kesime dayanıyorsa, çok az fark var.

İstatistikçi bir programcı gerekli değildir (kalem, kağıt ve özel bir yazılım kullanabilir). Ayrıca, veri bilimindeki bazı iş aramalarının istatistiklerle ilgisi yoktur. Örneğin, büyük veri işleme gibi veri mühendisliği gibi, en gelişmiş matematik ortalama hesaplama olsa bile (kişisel olarak bu aktiviteye "veri bilimi" demezdim). Dahası, "veri bilimi" varsayımsaldır, bu yüzden teğetsel olarak ilgili işler bu başlığı kullanır - başvuru sahiplerini cezbetmek veya mevcut işçilerin egolarını yükseltmek için.

Michael Hochster'ın Quora'ya verdiği cevabın taksonomisini beğendim :

A Tipi Veri Bilimcisi: A Analiz içindir. Bu tür, öncelikle verileri anlamayla veya bununla oldukça statik bir şekilde çalışmayla ilgilidir. A Tipi Veri Bilimcisi bir istatistikçiye çok benzemektedir (biri olabilir) ancak istatistik müfredatında öğretilmeyen verilerle çalışmanın tüm pratik detaylarını bilir: veri temizleme, çok büyük veri kümeleriyle başa çıkma yöntemleri, görselleştirme belirli bir alanın derin bilgisi, veriler hakkında iyi yazılar, vb.

B Tipi Veri Bilimcisi: B Bina içindir. B Tipi Veri Bilim adamları, A Tipi ile bazı istatistiksel geçmişleri paylaşırlar, ancak aynı zamanda çok güçlü kodlayıcılardır ve yazılım mühendisleri olarak eğitilebilirler. B Tipi Veri Bilimcisi, çoğunlukla “üretimde” verilerinin kullanılmasıyla ilgilenmektedir. Kullanıcılar ile etkileşime giren, sıklıkla önerilerde bulunan ürünler (ürünler, tanıdığınız insanlar, reklamlar, filmler, arama sonuçları) sunmaktadır.

Bu anlamda, A Tipi Veri Bilimcisi, programlayabilen bir istatistikçidir. Ancak, nicel kısımlar için bile, bilgisayar bilimlerinde (örneğin makine öğrenmesi) düzenli istatistiklerden daha çok arka plana sahip insanlar ya da örneğin veri görselleştirmeye odaklananlar olabilir.

Ve Veri Bilimi Venn Şeması (burada: bilgisayar korsanlığı ~ programlama):

Veri Bilimi Venn Şeması

ayrıca bkz. alternatif Venn şemaları ( bu ve bu ). Hatta mizahi olsa bile, bir tweet bile , veri bilimcisinin tipik becerilerinin ve faaliyetlerinin dengeli bir listesini gösterir:

Bir veri bilimci yapabilmeli

Ayrıca bu yazıya bakınız: Veri bilimcisi - istatistikçi, programcı, danışman ve görselleştirici? .


14
Tweet'i beğendim. Pizza yapmayı, kendi ekolojik sebzelerini yetiştirmeyi, şiir yazmayı ve salsa dans etmeyi de bilmesi gerektiğini eklerdim :)
Tim

3
Küçük kelime oyunu: Bütün "bilimler", "kanıtlar veya matematiksel saflık" üzerine vurgu yapmazlar. Örneğin biyoloji düşünün.
amip

2
Bir p değerini kesmek ne anlama geliyor? Bana göre birisi (yani müşteri) belirli bir p-değeri hedefine sahip ve veri bilimcisinin p-değeri hedefine ulaşılabilmesi için verileri kesip kesmesi gerekiyor. Yoksa farklı bir şey mi ifade etmesi gerekiyor?
emory

2
@amory Bu cik (O bir paragrafın bir pastishe var hümoristik olan en.wikiquote.org/wiki/Time_Enough_for_Love , "Bir insan mümkün olmalıdır [listesi]. Uzmanlık böcekler içindir."). “Bir p-değerini hacklemek” kesinlikle karanlık bir uygulamadır (ne yazık ki bazı akademik disiplinlerde yaygındır) ve (umarım) şaka olarak buradadır.
Piotr Migdal

4
Muazzam veri setlerinde basit "istatistikler" hesaplayan birini Veri Bilimcisi olarak adlandırmama konusundaki sözleri için +1. Sanırım küme hesaplamada uzmanlaşan Bilgisayar Bilimcileri'nin (Hadoop vb.) "Veri Bilimcileri" olarak etiketlendiği Veri Biliminde bir aşamadan geçiyoruz. Bu becerilere bakmıyorum, ancak istatistiksel / akıl yürütme / araştırma becerileri kadar önemli değiller ve teknoloji harita azaltmanın ötesine geçiyor.
Wayne,

42

Çok sayıda veri bilimi alanı araştırması var. Sevdiğim bu aslında veri fen işleri tutan insanların profillerini analiz çalışır çünkü karşı tarafa. Anekdot kanıt veya yazarın önyargısını kullanmak yerine, veri bilimci DNA'sını analiz etmek için veri bilimi tekniklerini kullanırlar.

Veri bilimcileri tarafından listelenen becerilere bakmak oldukça açıklayıcıdır. İlk 20 yeteneğin çok fazla BT becerisi içerdiğine dikkat edin.

Günümüz dünyasında, bir veri bilim adamının tüm işlemlerin bir jack olması bekleniyor; Sağlam bir nicel temele, programlama yeteneğine, sınırsız entelektüel meraka ve mükemmel iletişim becerilerine sahip olan bir öğrenci.

görüntü tanımını buraya girin

GÜNCELLEME:

Ben istatistikçiyim ama veri bilimcisi miyim? Bilimsel problemler üzerinde çalışıyorum, bu yüzden bilim adamı olmalıyım!

Eğer doktora yaparsanız, bilhassa bildiğiniz bir bilim adamısınız, özellikle de makaleler ve aktif araştırmalar yayınladıysanız. Yine de bir veri bilimcisi olmak için bilim adamı olmanıza gerek yok. Bazı firmalarda, Walmart gibi (aşağıya bakınız), doktora gerektiren bazı roller vardır, ancak genellikle veri bilimcilerinin aşağıdaki örneklerden görebileceğiniz gibi, BS ve MS dereceleri vardır.

Yukarıdaki çizelgeden de anlaşılacağı gibi, büyük olasılıkla, iyi programlama ve veri işleme becerilerine sahip olmanız gerekecektir. Ayrıca, çoğu zaman veri bilimi, makine öğrenmede uzmanlık seviyesinin, genellikle “derin” olan bir seviyesi ile ilişkilidir. İstatistiklerde doktora yapmışsanız kesinlikle kendinize bir veri bilimcisi diyebilirsiniz. Bununla birlikte, en iyi okullardan bilgisayar bilimlerinde doktora yapanlar, istatistik mezunlarından daha rekabetçi olabilir, çünkü güçlü programlama becerileri ile desteklenen uygulamalı istatistik bilgisine sahip olabilirler - işverenler tarafından aranan aranır. Onlara karşı koymak için güçlü programlama becerileri edinmeniz gerekir, bu nedenle dengede çok rekabetçi olursunuz. İlginç olan, genellikle tüm istatistik doktoralarının bazı programlama tecrübelerine sahip olmaları, ancak veri biliminde çoğu zaman gereksinimin bundan daha yüksek olması,

Bana göre istatistikte doktora yapmanın avantajı, genellikle bırakılan "tüm işlemlerin bir jack" ifadesinin geri kalanında yakalanan sorunda: "hiçbirinin ustası". Her şeyi biraz bilen insanlara sahip olmak iyidir, ancak istatistiklerinin veya bilgisayar bilimlerinin çok önemli olmadığı bir şeyleri her zaman çok derinden bilen insanlara bakarım. Önemli olan, adamın dibe varabilmesi, ihtiyacınız olduğunda kullanışlı bir kalite.

Anket ayrıca, veri bilimcilerinin en iyi işverenlerini listeler. Microsoft üstte, görünüşe göre, bu benim için şaşırtıcıydı. Aradıkları şey hakkında daha iyi bir fikir edinmek istiyorsanız, İşler bölümünde LinkeIn'i "veri bilimi" ile aramak yardımcı olacaktır. Aşağıda, MS ve Walmart’ın LinkedIn’deki işlerine değinmek için iki alıntı bulunmaktadır.

  • Microsoft Veri Bilimcisi

    • Veri İşleme Sistemleri / Hizmetleri oluşturmada 5+ yıllık Yazılım Geliştirme deneyimi
    • İstatistik, Veri Madenciliği veya Makine Öğrenmesi konularında uzmanlık derecesi ile Bilgisayar Bilimi, Enerji Verimliliği veya Matematikteki lisans veya daha yüksek nitelikler.
    • Büyük ölçekli verilerin işlenmesinde Mükemmel Programlama Becerileri (C #, Java, Python, Etc)
    • Hadoop veya diğer Büyük Veri işleme teknolojisi hakkında çalışma bilgisi
    • Analitik ürün bilgisi (ör. R, SQL AS, SAS, Mahout vb.) Bir artı.

Dikkat edin, stat paketlerini bilmek sadece bir artı, ama Java'da mükemmel programlama becerileri bir zorunluluktur.

  • Walmart, Veri Bilimcisi

    • Bilgisayar bilimi veya benzeri alanlarda doktora veya en az 2-5 yıl ilgili deneyime sahip yüksek lisans
    • C ++ veya Java'da iyi fonksiyonel kodlama becerileri (Java oldukça tercih edilir)
    • üretim kodunu C ++ / Java / Hadoop / Hive’de günlük iş gününe% 10’a kadar harcayabilmelidir
    • Python veya Perl gibi betik dillerinden birinin uzmanlık bilgisi.
    • Büyük veri kümeleriyle ve dağıtılmış hesaplama araçlarıyla çalışma deneyimini artı bir şekilde yaşayın (Harita / Azaltma, Hadoop, Hive, Spark vb.)

Burada doktora tercih edilir, ancak yalnızca bilgisayar bilimleri uzmanı seçildi. Hadoop veya Spark ile dağıtılmış hesaplama, muhtemelen bir istatistikçi için alışılmadık bir beceridir, ancak bazı teorik fizikçiler ve uygulamalı matematikçiler benzer araçlar kullanır.

GÜNCELLEME 2:

Veri Scientist "Başlık‘’Bu zaten öldür Time" başlıklı 2012 yılında Harvard Business Review makaleyi birlikte yazdığı Thomas Davenport diyor ": 21. Yüzyılın en seksi İşi Veri Scientist" tür veri bilimci çılgınlığı başladı:

Bugün sizin bir “veri bilimcisi” olduğunuzu, ya da çalışmak istediğinizi veya işe almak istediğinizi belirtmek ne yazık ki değil.


3
Veri kullanmak ve veri odaklı güzel bir rapora bağlanmak için +1. Ancak ekran görüntüsü bir web tarayıcısı arayüzüne mi ihtiyaç duyuyor?
Piotr Migdal,

@PiotrMigdal, tembel olmayı kesmeyi ya da bırakmayı öğrenmeliyim
Aksakal

4
Senin için kestim.
amip

1
Bugünkü güncellemeden sonra aşağı oy vermeye cazip geliyorum: bu konu zaten çok meşgul ve aşağıya doğru kaynamak için devasa bir alıntı duvarının olması bence çok yardımcı değil ... Belki de bağlantılar + kısa bir özet yeterli olabilir?
amip

1
@ amoeba, listeyi çıkardım. Adil bir yorum
Aksakal

39

Bunu okuduğum bir yerde (EDIT: Josh Will tweet'ini açıklıyor ):

Veri bilimcisi istatistikte herhangi bir programcıdan daha iyi ve programlamada herhangi bir istatistikçiden daha iyi bir kişidir.

Bu alıntı, bu veri bilimi süreci ile kısaca açıklanabilir . Bu şema üzerine ilk bakış, "peki, programlama kısmı nerede?" Gibi görünüyor, ancak tonlarca veriniz varsa, bunları işleyebilmelisiniz.


11
Muhtemelen bir istatistikçi olan her R katılımcısı bir veri bilimcisidir? ;)
Tim

15
Vay canına, siteyi geziyordum , bu soruyu merak ediyordum ( veribilim olduğu göz önüne alındığında ) ve sonra geçerken meraklı bir Wikipedia sayfam olduğunu öğrenmiştim ? Bu benim için bir haberdi ... Ve buna değer olarak, Ekonometri dalında eğitim aldım, istatistik değil, 20 yılı aşkın bir süredir “miktar” olarak çalıştım. Bu etkili bir veri bilimi ile aynıdır ...
Dirk Eddelbuettel

3
-1. Alıntıyı beğenmediğimden (muhtemelen yine de yanakta dildi) değil, ancak cevap burada çok sayıda diğer soruya kıyasla çok kısa ve önemsiz olduğu için not almıyorum. Belki bir şekilde genişletmezseniz, yorumun bir yoruma dönüştürülmesini öneririm.
amip

3
İşte bu alıntıyı yazarı Josh Wills'in açıklaması . Alıntıdan sonraki ilk üç paragraf, bu tartışmaya oldukça uygundur.
amip

3
@ amoeba: Josh Wills'in makalesini bu noktaya kadar sevdim: "İnsanlara, parametrik olmayan modeller yerine çok fazla hesap gerektiren parametrik modellere odaklanarak bilgisayar bilimcilerini korkutmayacak şekilde gelişmiş istatistikler öğrettiğimizi sanıyorum. bu öncelikle hesaplamalıdır ". Ayrıca, CS'lere gelişmiş istatistikler öğretmenin istatistikçilere nasıl iyi programlanabileceğinden daha kolay olduğunu da kabul etmiyorum (çoğu istatistikçinin korkunç programcılar olduğuna kesinlikle katılıyorum).
Cliff AB

15

Birkaç cevap yazdım ve her zaman uzadı ve sonunda bir sabun kabuğuna çıkmaya karar verdim. Ancak bu konuşmanın iki önemli faktörü tam olarak keşfetmediğini düşünüyorum:

  1. Bilim Veri Bilimi. Bilimsel bir yaklaşım, kendi modellerinizi, teorilerinizi, özelliklerinizi, teknik seçimlerinizi vs. yok etmeye çalıştığınız bir yaklaşımdır ve ancak bunu yapamadığınızda sonuçlarınızın faydalı olabileceğini kabul edersiniz. Bu bir zihniyet ve tanıştığım en iyi Veri Bilim İnsanlarının birçoğu, zor bilim geçmişlerine (kimya, biyoloji, mühendislik) sahip.

  2. Veri Bilimi geniş bir alandır. İyi bir Veri Bilimi sonucu genellikle her biri kendi uzmanlık alanına sahip küçük bir Veri Bilimcileri ekibinden oluşur. Örneğin, bir ekip üyesi daha titiz ve istatistikseldir, diğeri mühendislik altyapısına sahip daha iyi bir programcıdır ve diğeri iş meraklısı konusunda güçlü bir danışmandır. Üçü de konuyu öğrenmek için hızlı ve üçü de meraklı ve gerçeği bulmak istiyor - ancak bununla birlikte acı verici - ve müşteri (iç veya dış) müşterinin çıkarına en uygun olanı yapmak istiyor. anlamadım

Son birkaç yıldaki soluk - şimdi soluk, sanırım - küme teknolojilerinde uzmanlaşan (Hadoop ekosistemi, vb.) Bilgisayar Bilimcilerini işe almak ve bunun ideal Veri Bilimcisi olduğunu söylemek. OP’nin karşılaştığı şeyin bu olduğunu düşünüyorum ve OP’e güçlerini titizlik, doğruluk ve bilimsel düşünce konusunda zorlamalarını tavsiye ediyorum.


@RustyStatistician: Rica ederim. Çalıştığım danışmanlığın doktora (mühendislik, biyoloji, astronomi, bilgisayar bilimi) olduğunu, ancak genel olarak yüksek lisans derecelerini - genellikle analitik alanında yüksek lisans için geri dönen iş tecrübesi olanları - tatlı nokta olarak görüyorum. . Bu, şu anda teknoloji lideri olduğum bir projede bulunan biyoloji doktora çalışma arkadaşım için her güne teşekkür ediyorum. Ekonomi geçmişi olan (ve Analytics’te yüksek lisans derecesi olan) proje lideri ile birlikte harika bir ekibiz! (
Wayne,

1, ama [iyi] Veri bilim söyleyerek ilk kurşun noktası hakkında merak ediyorum olan bir bilim. Eğer öyleyse, meraklı ve belki de yanıltıcı (?) Bir terimdir çünkü “veri bilimi” kendi içinde “veri” yi incelemiyordur; Belirli bir uygulamada ilgilenilen ne olursa olsun, başka bir şeyi incelemek için veri kullanıyor. Buna karşılık, örneğin "siyaset biliminin" politika çalışması ve "sinirbilim" gibi isimlerin dediği gibi nöronları incelemesi gerekiyor.
amip

1
@ amoeba: Aslına bakarsan, Veri Bilim Adamı, verilerini anlama ve kullanma şeklinin bir parçası olarak bilimsel yöntem olan ala Richard Feynman'ı kullanmalıydı. (Dediğiniz gibi, belirli bir uygulamanın peşinde.) İşin istatistikçi kısmı: "Bu değişken oldukça önemli görünüyor - gelecekten sızıyor mu?" Veya "Bu model makul görünüyor, ancak tüm model hazırlama sürecinde CV'yi çalıştıralım ve sonra bunun üzerine bir miktar yeniden örnekleme yapalım." Modelinizi / teorinizi ispatlamak ve başkalarının da bunu yapmasını sağlamak çok çalışıyor. "Yeşil M & Ms kansere neden" kabul etmiyor.
Wayne,

@Wayne, şu ana kadar "bilimsel yöntem" den bahseden tek kişi. Bu çok üzücü.
jgomo3

Bir şeyi anlamaya çalışan herkes için fizik anlayışı, özellikle de birimler anlayışı gereklidir. Bununla birlikte, bu cesur yeni dünyamızda, "gob-stoper" olarak optimal altı öngörücü değeri olan, ancak gerçek çözümler olmayan sezgisel gözlemler yapmak genellikle yeterlidir.
Carl

14

Bitwise cevabımın çoğunu kapsıyor ama 2c'yi ekleyeceğim.

Hayır, üzgünüm ama istatistikçi, en azından bugün çoğu şirketin rolünü nasıl tanımladığına dayanan bir veri bilimcisi değil. Tanımın zaman içinde değiştiğini ve uygulayıcıların bir zorluğunun ilgili kaldıklarından emin olmak olduğunu unutmayın.

"Data Scientist" rolleri için adayları neden reddettiğimize dair bazı ortak nedenleri paylaşacağım:

  • İşin kapsamı hakkında beklentiler . Tipik olarak DS'nin bağımsız çalışabilmesi gerekir. Bu, kendisine tahsis edilen sorunu çözmek için veri setini oluşturacak başka hiç kimsenin olmadığı anlamına gelir. Bu yüzden, veri kaynaklarını bulabilmesi, sorgulayabilmesi, bir çözümü modelleyebilmesi ve ardından sık sık sorunu çözen bir prototip oluşturabilmesi gerekiyor. Çoğu zaman bu sadece bir gösterge panosu, alarm veya sürekli güncellenen bir canlı rapor oluşturulmasıdır.
  • Haberleşme . Görünüşe göre, birçok istatistikçi fikirlerini iş dünyasına “basitleştirmek” ve “satmak” için zor zamanlar yaşıyor. Sadece bir grafik gösterip, odadaki herkesin alabileceği şekilde verilerden bir hikaye anlatabilir misiniz? Unutmayın, bunun güvencenizden sonra olduğunu varsayalım, analizin her bir parçasını karşı koyabilirseniz savunabilirsiniz.
  • Becerilerini Kodlama . Üretim düzeyinde kodlama becerilerine ihtiyacımız yok, çünkü bunun için geliştiricilere sahibiz, ancak bir prototip yazabilmesi ve bir AWS EC2 örneğinde bir web servisi olarak konuşlandırması için ona ihtiyacımız var. Bu nedenle, kodlama becerileri, R komut dosyaları yazma yeteneği anlamına gelmez. Buradaki bir yerde Linux'ta akıcılık ekleyebilirim Bu nedenle, çubuk çoğu istatistikçinin inanma eğilimindekinden daha yüksektir.
  • SQL ve veritabanları . Hayır, bu işi yapamaz, çünkü zaten bildiği temel SQL'i uyarlaması için ona ihtiyacımız var ve her biri Redshift, HIVE ve Presto dahil org boyunca kullandığımız farklı DB sistemlerini nasıl sorgulayacağımızı öğreniyor. kendi lezzetini kullanan SQL. Ayrıca, işyerinde SQL öğrenmek, adayın verimli sorguları nasıl yazacaklarını öğrenene kadar diğer tüm analistlerde problem yaratacağı anlamına gelir.
  • Makine Öğrenimi . Genellikle, belirli bir veri kümesine (Kaggle stili) dayalı bir sorunu çözmek için Lojistik Regresyon veya birkaç başka teknik kullanmışlardır. Bununla birlikte, görüşme algoritmalardan ve yöntemlerden başlasa bile, kısa süre sonra, özellik oluşturma (veri setini oluşturmanız gerektiğini unutmayın, sizin için oluşturacak başka kimsenin olmadığını unutmayın), sürdürülebilirlik, ölçeklenebilirlik ve performans gibi konulara odaklanın. takaslar. Bazı bağlamlar için, NIPS 2015'te yayınlanan Google'dan alakalı bir makaleye göz atabilirsiniz .
  • Metin Analizi . Zorunlu olmamakla birlikte, Doğal Dil İşlemede bazı deneyimlere sahip olmak iyidir. Sonuçta, verilerin büyük bir kısmı metin biçimindedir. Tartışıldığı gibi, bir ML veya başka bir istatistiksel yaklaşımla tüketilebilir hale getirmek için dönüşümleri yapacak ve metni sizin için temizleyecek başka kimse yoktur. Ayrıca, bugün bile CS sınıflarının bile bu kutuyu işaretleyen bir proje yaptığını unutmayın.

Elbette küçük bir rol için yukarıdakilerin hepsine sahip olamazsınız. Ancak, bu becerilerden kaç tanesini kaybedebilir ve işe başlayabilirsiniz?

Son olarak, açıklığa kavuşturmak için, istatistikçi olmayanları reddetmenin en yaygın nedeni, temel istatistik bilgilerinin bile olmamasıdır. Ve bir yerlerde bir veri mühendisi ile bir veri bilimcisi arasındaki fark var. Bununla birlikte, veri mühendisleri bu rollere başvurma eğilimindedir, çünkü çoğu zaman "istatistiklerin" sadece ortalama, varyans ve normal dağılım olduğuna inanırlar. Bu nedenle, “istatistik” ile ne demek istediğimizi netleştirmek ve karışıklığı önlemek için iş tanımlarına birkaç alakalı, ancak korkutucu istatistik buzzwords ekleyebiliriz .


4
2006'dan beri iki üniversitede "işletme bilişimi" adlı programlarda uygulamalı istatistik ve veri analizi dersleri veriyorum ve bu öğrencilerimin öğrendiklerine% 100 uygulanmaktadır. 1. İşlerinden, weblerinden, anketlerinden vb. Gerçek, belki de dağınık veriler toplamaları gerekir. 2. Verileri kurs için bir SQL veri tabanında temizleyin, hazırlayın ve saklayın. 3. Veriler üzerinde çeşitli istatistiksel analizler yapın. 4. 1-2 sayfalık kısa yönetici brifingleri hazırlayın ve edebi programlama ile ayrıntılı bir rapor yazın (knitr veya benzeri). Bu veri biliminden, ek bir istatistik / ML dersi olan işletme bilişimi var, değil mi?
Momo

4
Elbette, kursunuz gerekli becerilerin çoğunu kapsar. Sanırım, bazı istatistik dersleri içeren Computer Science derecesi ve işletme ML tabanlı bir problem üzerine tez / staj gibi birçok kombinasyon bulabiliriz. Günün sonunda önemli olan , adayın masaya getirdiği ilgili becerilerin derinliği ve genişliğidir .
iliasfl

11

Hype ve buzzwords'ü görmezden gelmeme izin ver. Bence "Veri Bilimcisi" (veya ne demek istersen) gerçek bir şey ve bu bir istatistikçiden farklı. Etkili bir şekilde veri bilimcisi olan ancak bu isim verilmeyen birçok pozisyon tipi vardır - bunlardan bir tanesi genomikte çalışan insanlardır.

Gördüğüm gibi, bir veri bilimcisi, büyük miktarlarda karmaşık veriler üzerinde araştırma tasarlama ve yürütme becerisine ve uzmanlığına sahip bir kişidir (örneğin, temel mekanizmaların bilinmediği ve karmaşık olduğu boyutlar).

Bu şu anlama gelir:

  • Programlama: Genellikle bir miktar paralelleştirme ve veri tabanları ve yüksek performanslı bilgi işlem kaynakları ile arayüz oluşturma gerektiren analiz ve boru hatları uygulayabilmek.
  • Bilgisayar Bilimi (algoritmalar): Seçilen analizin uygulanabilir olduğu ve hata oranının kontrol edildiği şekilde verimli algoritmalar tasarlamak / seçmek. Bazen bu aynı zamanda sayısal analiz, optimizasyon vb. Bilgileri gerektirebilir.
  • Bilgisayar bilimi / istatistikleri (genellikle makine öğrenmesine vurgu yapar): Veriler hakkında soru sormak veya içinde “kalıplar” bulmak için bir çerçeve tasarlamak ve uygulamak. Bu, yalnızca farklı testler / araçlar / algoritmalar hakkındaki bilgiyi değil aynı zamanda uygun görüş, çapraz doğrulama vb.
  • Modelleme: Çoğunlukla, hem faydalı tahminler yapabilmemiz hem de verinin altında yatan mekanizmalar hakkında fikir edinebilmemiz için verilerin daha basit bir sunumunu veren bir model üretebilmek istiyoruz. Olasılıklı modeller bunun için çok popüler.
  • Etki alanına özgü uzmanlık: Karmaşık verilerle başarılı bir şekilde çalışmanın önemli bir yönü, alana özgü içgörü içerir. Bu nedenle, veri bilimcisinin, alanda uzmanlığa sahip olması, yeni alanları hızlıca öğrenebilmesi veya bu alandaki verilere nasıl yaklaşılacağı konusunda yararlı bilgiler verebilecek uzmanlarla iyi bir şekilde iletişim kurabilmesi gerektiğini belirttim. .

6
Ve sizce bir istatistikçi kim? Bu bir yetenek listesinin bir “istatistikçinin” sahip olması gereken becerilerden farkı nedir?
amip

4
@ amoeba Yanılıyor olabilirim, ancak birçok istatistikçi bu becerilerin bir kısmına sahip değil (örneğin, büyük veri kümeleriyle kapsamlı programlama, bilgisayar bilimi alanında yüksek lisans eğitimi). Ayrıca, bazı istatistiksel beceriler çoğu zaman veri bilimcisi (bazıları teorik, bazı alt alanlar) ile ilgisizdir.
Bitwise

4
@rocinante: "Büyük veri kümeleriyle programlama" nın gerçekten bir engelleme olmadığı konusunda kesinlikle hemfikir değilim. Bir sunucudaki gelen paketlere dayanarak gerçek zamanlı kararlar veren bir yazılımı uygulayabilen "istatistikçi" unvanını taşıyan birini tanıdığımı sanmıyorum. Kuşkusuz tüm veri bilimcileri de yapamaz, ancak oran çok daha yüksektir.
Cliff AB

3
@rocinante bence istatistiklerin iyi bir şekilde anlaşılması gerekiyor ama benim görüşüme göre yeterli değil. İstatistiklerin derinliği / zorluğu ve diğer becerilerle ilgili olarak, bilgisayar bilimi tarafının iyi bir şekilde anlaşılmasının daha fazla olmasa da derin / zor olduğunu savunuyorum. Ayrıca, SE hakkındaki sorulara ilişkin olarak, herhangi bir SE'de (bu dahil) herhangi bir soruda bu tür soruları bulursunuz - bu, bazı kişilerin anlamadan kolay çözümler istemeleri dışında hiçbir şey ifade etmez.
Bitwise

6
Bu "veri bilimi vs. istatistik" tartışmalarında yorucu olan tek şey, veri bilimcilerinin bir istatistikçi ırkının üstün bir cinsi gibi göründüğü ince bir fikirdir. Gerçek şu ki, bilginizin genişliği arttıkça, derinlik azalır ve “veri bilimcisi” olmak için gerekli tüm görevlerde ipucu olmayanlardan daha iyi olan insanlar, bu şeylerin çoğunun bilgisini almak isterdim. oldukça yüzeysel. Genel olarak, insanların bu efsanevi veri bilim adamlarının uzmanlaşmasını beklediği alanlarda uzmanlaşmaya bile yaklaşmak son derece zordur.
dsaxton

7

Ancak tüm bu büyük cevaplar, iş avcılık deneyimimde, "veri bilimcisi" teriminin, iletişim kurduğum işe alım uzmanlarının kafasında "küçük veri analisti" ile karıştırıldığını belirtmiştim. Böylece, birkaç yıl önce yaptıkları tanıtım dersi dışında, istatistik deneyimi olmayan pek çok hoş insan şimdi kendilerine veri bilimcileri diyor. Bilgisayar bilimi geçmişine ve veri analisti olarak uzun yıllara dayanan deneyime sahip biri olarak, daha sonra kariyerimde kalabalığın arasından sıyrılmama yardım edebileceğini düşündüğüm İstatistikler alanında doktora yaptım. ". Sanırım "istatistikçi" ye geri dönebilirim!


5
Temelde aynı şeyi görüyorum. Verileri olan bazı çalışmalar veya analiz gerektiren herhangi bir işe "Veri Bilimi" denir. Bence çok benzer bir şey finansta "Quant" 'a oldu, verilerle biraz çalışmış olan herkes kendilerini "Quant" olarak adlandırıyordu.
Akavall

6

Ben küçük bir çalışanım ama iş ünvanım "veri bilimcisi". Bitwise'ın cevabının, işe alınmamın işe yarayıp yaramadığını gösteren bir açıklama olduğunu düşünüyorum, ancak işteki günlük deneyimime dayanarak bir nokta daha eklemek istiyorum:

Data ScienceStatistics,
StatisticsData Science.

Bilim bir soruşturma sürecidir. Veri, bu araştırmanın yapıldığı araç olduğunda, veri bilimi gerçekleşiyor. Bu, verileri deney yapan veya araştırma yapan herkesin mutlaka bir veri bilimcisi olduğu anlamına gelmez, aynı şekilde kablolama ile deney yapan veya araştırma yapan herkesin mutlaka bir elektrik mühendisi olmadığı anlamına gelmez. Ancak bu, profesyonel bir "elektrik araştırmacısı" olmak için yeterli bir eğitim alabilmesi, aynı şekilde profesyonel bir elektrikçi olmak için yeterli bir eğitim alabileceğiniz anlamına gelir. Bu eğitim az ya da çok, Bitwise'un cevabındaki noktalardan oluşuyor, ki bu istatistiklerin bir bileşeni ama bütünü değil.

Piotr'ın cevabı da, belirli bir haftada nasıl yapacağımı bilsem yapmam gereken her şeyin güzel bir özetidir . Şu ana kadarki işim çoğunlukla, Venn diyagramının "Tehlikeli Bölge" bileşenine ait olan eski çalışanların verdiği hasarı gidermeye yardımcı oldu.


2
+1. Bence bu konuda “veri bilimcisi” olarak çalışan insanlardan haber almak çok değerli.
amip

(+1) @amoeba Duygularına% 100 katılıyorum.
RustyStatistician

8
Data ScienceStatisticsStatisticsData ScienceStatisticsData Science

caveman Kesinlikle katılıyorum.
RustyStatistician,

1
StatisticsData ScienceStatisticsData ScienceData Science

3

Son zamanlarda veri bilimi ile kariyer olarak ilgilenmeye başladım ve veri bilimi mesleği hakkında öğrendiğim şeyleri aldığım (ve zevk aldığım) sayısız istatistik dersine kıyasla ne düşündüğümü düşündüğümde, veri bilimcileri olarak düşünmeye başladım. dikkatini verilere dönüştüren bilgisayar bilimcileri. Özellikle, aşağıdaki ana farklılıkları not aldım. Farklılıklar ruh hali göründüğü halde unutmayın. Aşağıdaki sadece öznel izlenimlerimi yansıtıyor ve genellik iddia etmiyorum. Sadece izlenimlerim!

  1. İstatistiklerde, dağılımlara, olasılıklara ve çıkarımsal işlemlere çok önem veriyorsunuz (temel dağılımlar olan hipotez testleri nasıl yapılır?). Anladığım kadarıyla, veri bilimi tahminden daha sık değildir ve çıkarımsal ifadelerle ilgili endişeler bir dereceye kadar çapraz doğrulama gibi bilgisayar bilimlerindeki prosedürler tarafından emilir.

  2. İstatistiksel derslerde, sıklıkla kendi verilerimi oluşturdum ya da oldukça temiz bir formatta hazır bazı hazır veriler kullandım. Bu, güzel bir dikdörtgen biçiminde, bazı mükemmel elektronik çizelgelerde veya RAM'e iyi uyan bir şey olduğu anlamına gelir. Veri temizliği elbette söz konusudur, ancak artık RAM'e uymayan bir veriyi tutabilmek için oluşturulmuş veritabanlarından bağımsız olarak, web'den "veri çıkarmak" ile uğraşmak zorunda kalmamıştım. Benim izlenimim, bu hesaplama yönünün veri biliminde çok daha baskın olduğu yönünde.

  3. Belki de bu, istatistikçilerin tipik istatistik işlerinde neler yaptıkları konusundaki cehaletimi yansıtıyor, ancak veri biliminden önce, daha büyük bir ürüne model oluşturmayı hiç düşünmedim. Yapılacak bir analiz, çözülmesi gereken istatistiksel bir sorun, tahmin edilebilecek bazı parametreler vardı. Veri biliminde, genellikle (her zaman olmamakla birlikte) öngörücü modellerin daha büyük bir şeye inşa edildiği görülmektedir. Örneğin, bir yere tıklarsınız ve milisaniye içinde, tahmin edici bir algoritma, neyin sonuç olarak gösterileceğine karar vermiş olur. Dolayısıyla, istatistiklerdeyken, her zaman "hangi parametreyi tahmin edebiliriz ve bunu nasıl zarif bir şekilde yaparız?" Diye merak etmişimdir; veri biliminde odaklanmanın "bunun bir veri ürününde potansiyel olarak yararlı olacağını ne tahmin edebileceğimize" daha fazla olduğu görülmektedir. .

Yine, yukarıdaki genel bir tanım vermeye çalışmamaktadır. Sadece kendimi algıladığım büyük farklılıkları işaret ediyorum. Henüz veri biliminde değilim, ancak önümüzdeki yıl geçiş yapmayı umuyorum. Bu anlamda iki kuruşumu birer tane tuzla buraya alın.


2

Veri Bilim Adamı'nın, sonucun istatistiki olarak sağlam (önemli) olması için yöntemleri kullanarak, işletmeler için insan tarafından okunabilir sonuçlar yarattığı bir rol olduğunu söylüyorum.

Bu tanımın herhangi bir kısmına uyulmazsa, bir geliştirici, gerçek bir bilim insanı / istatistikçi veya veri mühendisinden bahsederiz.


2

Ben her zaman konunun özünü kesmeyi severim.

statistics - science + some computer stuff + hype = data science

1
Bu, “makine öğrenmeyi” oluşturduğum izlenimine benziyor, “nasıl çalıştığını anlamadan bir yazılımın nasıl çalıştırılacağını öğrenmek” olarak kapsıyorum (elbette haksız, ama bir sürü "makine öğrenmesi" görüyoruz) okuldan çıkan insanlar, farklı türdeki sinir ağlarının ayar parametrelerinin neyi temsil ettiği dışında hiçbir şey anlamayanlar.)
jbowman

1

Veri bilimi, analitik olarak karmaşık sorunları çözmek için veri çıkarımı, algoritma geliştirme ve teknolojinin multidisipliner bir karışımıdır. Ancak, Veri Bilimcilerin azlığı nedeniyle, veri bilimindeki bir kariyer gerçekten çok sayıda fırsat yaratabilir. Bununla birlikte, kuruluşlar SAS, Amerika Veri Bilimi Konseyi (DASCA), Hortonworks vs.'den sertifikalı profesyoneller arıyorlar. Bunun iyi bir bilgi olduğunu umuyorum!


1

Veri bilimcileri Python, MySQL ve Java gelişiminde çok yetenekli becerilere sahiptir.

Matematiksel, istatistik, veri madenciliği, tahmine dayalı analiz becerileri konusunda oldukça iyi bir analitik fonksiyona sahip oldukları ve Python ve R gibi kodlama dilleri hakkında gerçekten iyi bir bilgiye sahip olmaları

Şu anda birçok veri bilimcisi doktora derecesine sahipler. ya da yüksek lisans derecesi aslında araştırmaya göre sadece% 8'inin sadece bir lisans derecesi var, bu yüzden çok daha derinlemesine.

Verilere dayalı kararlar veren istatistiksel modeller oluşturmak. Her karar zor olabilir, örneğin bir sayfanın oluşturulmasını engelleme veya yumuşak, örneğin, aşağı doğru sistemler veya insanlar tarafından kullanılan bir sayfanın kötüye kullanımı için bir puan atama.

Gözlenen bir olgunun kök nedenini belirlemeye çalışan nedensellik deneyleri yapmak. Bu, A / B deneyleri tasarlayarak veya A / B deneyinin soruna epidemiyolojik yaklaşım uygulamak mümkün olmadığı durumlarda yapılabilir, örneğin @ Rubin nedensel modeli

Veri değerinin kilidini açmaktan gelen yeni ürün veya özellikleri belirlemek; Verinin değeri konusunda düşünce lideri olmak. Buna güzel bir örnek, Amazon'un ilk kitlesel kitleye sunduğu ürün önerileri özelliğidir.


1
Hayır, hayır. Veri bilim insanı iş zincirine girebildiğiniz kadar yüksek biriyim ve Java'yı hiç tanımıyorum, Python konusunda da uzman değilim ve MySQL becerilerim genel olarak en iyi kalitede. Benim grubumda küçük Python'u tanıyan, R'yi tercih eden birkaç kişi var ve sadece bir kişi Java'yı biliyor ama temelde R ve C / C ++ kodlarını kullanıyor (benim gibi). Üç kişi Python'u tanıyor, alt seviye dil Python v. R alev savaşlarına veya Java v. C / C ++ 'ya girmek istemiyorum, ancak programlama ile ilgili beceri listenizden herhangi birinin gerekli olması şart değildir.
jbowman

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.