Programcıyım, Veri Bilimi alanına nasıl girebilirim?


13

Her şeyden önce bu terim çok belirsiz görünüyor.

Her neyse .. Ben bir yazılım programcısıyım. Kodlayabildiğim dillerden biri Python. Veri Konuşma SQL kullanabilir ve Veri Kazıma yapabilirim. Veri Bilimi'nin iyi olduğu birçok makaleyi okuduktan sonra şu ana kadar anladım:

1- İstatistikler

2- Cebir

3- Veri Analizi

4- Görselleştirme.

5- Makine Öğrenmesi.

Şimdiye kadar bildiklerim:

1- Python Programlama 2- Python'da veri toplama

Uzmanlar bana hem teoriyi hem de pratikleri fırçalamak için bir yol haritası önerebilir veya önerebilir misiniz? Kendime yaklaşık 8 aylık bir zaman dilimi verdim.


Lütfen neye "girmek" istediğiniz konusunda spesifik olun. Sadece alan değil, aynı zamanda hangi seviyede. Örneğin - "profesyonel tıbbi metin madencisi" veya "amatör astrofizik evren inceleyicisi"
Pete

Danışmanların ya da çalışanların, şirketlere kendi verilerini kazmaları ve bunlarla ilgili bilgiler almaları için iletişim kurabilecek bir şey olmaya hazırım.
Volatil3

(1) Andrew'un Makine Öğrenimi üzerine Ng kursu; (2) Verilerden Öğrenme üzerine Yaser Abu-Mostafa kursu; Her ikisine de erişilebilir (zaman dahil değildir) ve size iyi bir anlayış sağlayacaktır.
Vladislavs Dovgalecs


Veri Bilimi terimi çok geniştir. Belki ne tür işler yapmak istediğinizi ve hangi şirkette çalışmak istediğinizi düşünebilirsiniz, onların gereksinimlerini ve sorumluluklarını görün. O zaman işin beklentinizi ve yetenek boşluğunuzu karşılayıp karşılamadığını bilirsiniz. İşte GOOGLE'deki veri bilimcisinin gereksinimleri. ! [Google'dan Veri Bilimcisi Gereksinimleri ] ( i.stack.imgur.com/5KSN6.png )
Octoparse

Yanıtlar:


18

Daha az beceri kazanmaya ve daha çok deneyim kazanmaya odaklanın. Aslında bazı sorunları çözmeye çalışın ve çalışmanızı github'da yayınlayın. Süreç hakkında daha fazla bilgi edinecek ve işverenlere, bir konu veya teori hakkında derinlemesine bir anlayışa sahip olmaktan çok daha değerli olan bilgi ve deneyim gösterebileceksiniz.

Veri Bilimi bu gün oldukça dolu bir alandır, bu yüzden özellikle ne tür bir iş yapmak istediğinizden emin değilim, ancak makine öğrenmesinin bunun bir bileşeni olduğunu varsayarsak, kaggle.com başlamak için iyi bir yerdir. Hedefler açısından, pandalar / numpy / scipy'deki verilerle çalışabiliyorsanız, bilimkurgu kitinde modeller oluşturun ve deniz dibi, ggplot veya hatta matplotlib'de güzel grafikler oluşturun ve o zaman bir sorun yaşamayacaksınız. Beceri perspektifinden bir iş - özellikle yeteneklerinizi göstermek için kod örnekleriniz ve örnekleriniz varsa. Eğer takılırsanız stackexchange ya cevap verecektir ya da bir soru gönderebilirsiniz ve kısa süre içinde bir cevap alacaksınız. Bir yaşam için işi yaptıktan sonra, muhtemelen size rehberlik eden kıdemli bir ekip üyesinden daha fazla şey öğreneceksiniz.

İyi şanslar.


7

Veri Bilimi üzerine Berkeley dersini seviyorum, Veri Bilimi için iyi bir temel ve tat verecek, udacity ve coursera'ya ve daha birçok kaynağa taşındıktan sonra. Programlama becerileriniz varsa, matematik ve stat'e ve çok fazla görselleştirmeye ihtiyacınız olacaktır. IPython'a alışmak da harika olacaktır, çünkü her adımı bir komut dosyası yazmak ve sonra test etmek için nasıl çalıştığını görmek (görselleştirmek) önemlidir (anaconda'nın kurulumu ve çalışması kolaydır). Kurs aşağıda listelenmiştir: bcourses.berkeley.edu/courses/1267848/wiki ayrıca SAS'dan iyi ücretsiz kurs buluyorum: İstatistik 1: ANOVA, Regresyon ve Lojistik Regresyona Giriş support.sas.com/edu/schedules.html ? ctry = bize & id = 1979

ML ile başlayarak şunları önerecektir: www.kaggle.com/c/titanic/details/getting-started-with-python

sol tarafta da Pivot tabloları ve R kullanarak Excel içindir. DataCamp, R'nin nasıl kullanılacağına ilişkin öğreticiyi yayınladı. Bu adımları tamamladıktan sonra, deneyim kazanmada daha fazla yarışma kaggle'da (son zamanlarda San Francisco Suç Sınıflandırması için bir tane yayınlandı) ve sonuçta www.dataschool.io inanılmaz video öğreticiler

Umarım yardımcı olur ...


Cevabınız için teşekkürler. Nasıl öğrendin?
Volatil3

1
Kitaplar, öğreticiler çevrimiçi ve kod üzerinde el ile oynamak için ilgili bir sürü eller. Kaggle.com'u deneyin ve yarışmalar deneyin. ML öğrenmeye başlamak harika.
n1tk

ve sonuçta veri bilimcilerinden oluşan bir topluluk bulmaya ve projelere katılmaya çalıştığınızda, hiçbir kitabın öğretemeyeceği projelerde paylaşılan çok fazla deneyim kazanacaksınız.
n1tk

Ama istatistik, matematik gibi teoride iyi değilim. Onları Uni günlerinde
çalıştım

Benim özel durumum olarak okula dönmeyi ve Analytics ve Veri Bilimi alanında doktora programına geçmeyi düşündüm ... matematik 1,2, Doğrusal cebir, sayısal doğrusal cebir, SAS, R, büyük veriler için matematik, grafik teorisi ve daha fazlası ...
n1tk

5

Gerçek bir veri bilimcisi olan David'e katılmıyorum, makine öğrenimi algoritmalarını doğru nedenlerle nasıl kullanacağını kodlayan ve bilen uygulamalı bir istatistikçidir. İstatistik, tüm veri biliminin temelidir. Kendi başına "kek" dir. Diğer her şey sadece buzlanma.

Soru, ne tür bir veri bilimcisi olmak istiyorsun? Konunun ustası (bir algoritma veya teknik uygulama nasıl, neden, ne zaman ve ne zaman uygulanmayacağına dair bilgi) veya Scipy kullanarak ve onun Veri Bilimcisi olduğunu düşünen bir Kaggle Script Kiddie mi olmak istiyorsunuz?

1 - İstatistikler

2- Diğer her şey


2
Ne dediğini anladığımdan emin değilim. "Uygulamalı istatistik" bilmenin önemli olmadığını hiç söylemedim - sadece yöntem uygulama deneyimi kazanmanın, yöntemlerin kendisi hakkında teorik bilgi edinmekten daha önemli olduğunu fark ettim.
David

1
David, tam olarak benim anlaşmazlık noktamdı. Metodların kendileri hakkında teorik bilgiye sahip olmadan, sadece senaryo çocuklarıyız. Deneyim önemlidir, ancak teorik bilginin bir yan ürünüdür, tersi değil.
Gizli Markov Modeli

2
Hayır, değil. Uygulamalı deneyim ve teorik bilgi arasında büyük bir fark vardır, bu genellikle endüstride ve sınıfta kazanılanlar arasındaki farktır. Örneğin, bir modelin çapraz validasyon gibi uygulamalı bir yöntem kullanarak gereğinden fazla uymadığını etkili bir şekilde nasıl doğrulayacağının bilinmesi, regülasyonun teorik temellerini bilmekten daha değerlidir. Ayrıca, lütfen "senaryo çocuklarından" bahsetmeyi bırakın - hiç kimse kaggle'ın yeni ve korkunç tek tıklama-gönderme işlevini kullanarak savunmuyor.
David

1
Söylediğiniz şey doğruysa, şirketler neden sadece lisans derecesi olanlara göre doktora ve yüksek lisans derecesine sahip kişileri tercih ediyor? Çünkü algoritmaları yönlendiren teknikler hakkında teorik bilgiye sahipler. Onlar kendi başlarına motor üreticileri. Teorik bilgi daha derin bir bilgidir. Kaggle senaryo çocukları için bir tutma tankıdır.
Gizli Markov Modeli

1
Her ikinizin de bahsetmeye çalıştığınız noktaları görebiliyorum, ama belki de bağlam dışı. Asıl soru 'bir programcı veri bilimindeki bir işe nasıl geçiş yapabilir?' İdi. Eğer cevap 'her şeyi bırakın, istatistiklerde doktora yapmak için birkaç yıl geçirin, o zaman kendi projelerinizi yapın ve sonra uygulamaya başlayın', bu oldukça zahmetli bir engeldir ve onlara pratikte rahatsız etmemelerini de söyleyebilirsiniz. duygusu. Tersine, İstatistik PHD (hatta Masters) ve görünen kişi sayısı göz önüne alındığında, işverenler bir derece olmadan deneyim gösterebilen insanları düşünebilir.
chrisfs

4

Eğer gerçek bilgiye sahip pratik bir adam olmak istiyorsanız, matematikle başlayın (matematik, olasılık + stat, doğrusal doğrusal cebir). Her adımda her şeyi programlama ile uygulamaya çalışın, python bunun için iyi. İyi bir zemin elde ettiğinizde, gerçek verilerle oynayın ve sorunları çözün

Dersler. Doğrusal cebir - edx Laff veya matrisi kodlama Stat - edx stat 2x Barkley Matematik - okuyun ... basit


2

David'in iyi bir noktası var, ilginizi çeken her şeye odaklanmanızı öneririm. Her türlü çabayı başarmanın tek yolu budur. Serin bir şey inşa etmek istiyorsanız onunla başlayın. Bir kitap okumak istiyorsanız bu da iyi. Başlangıç ​​noktası önemli değil. Birkaç gün sonra ne yapmak istediğinizi ve daha sonra ne yapmanız gerektiğini daha iyi anlayacaksınız.


1

Veri Bilimi çok geniştir, içine girmenin birçok farklı yolu vardır. Genellikle 4 veya 5 farklı türe ayrılır, örneğin:

resim açıklamasını buraya girin

Bu konudaki diğer yayınlardan, Uygulamalı İstatistik arka planından (doğru algoritmayı uygulayarak), Programlama arka planından (Kaggle'a katılan) ve bunu bir iş arka planına uygulayan diğer kişilerden görebilirsiniz.

Bilgili şirketler, programlama konusunda çarpık bir kişiyi "Veri Mühendisi" olarak adlandırabilir. Büyük şirketler de her türü veri bilimi ekibi için kullanırlar, bu nedenle iyi T şeklindeki becerileri göstermek iyi bir şey olacaktır.


0

Bir programcıysanız, bir Karar Ağacı sınıflandırıcısıyla başlayabilir, Entropi ve Bilgi Kazancı'nın arkasındaki matematiği anlamaya odaklanabilirsiniz. ML'nin tamamen veri sıkıştırmayla ilgili olduğunu anlamak önemlidir.

Pratik derslerin değeri hakkındaki diğer cevaplara katılmıyorum. ML için en değerli olan matematiktir: sayı teorisi, doğrusal cebir ve olasılık teorisi.

Eğer matematiğe odaklanmıyorsanız, öğreneceğiniz tek şey, sihir yapmak için bazı kütüphanelerin nasıl kullanılacağıdır, bu makine öğrenimi değildir ve bilim değildir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.