Veri bilimci vs makine öğrenim mühendisi


66

Varsa, bir "veri bilimcisi" ile "makine öğrenim mühendisi" arasındaki farklar nelerdir?

Geçen yıl boyunca “makine öğrenim mühendisi” iş ilanlarında çok fazla yer almaya başladı. Bu, özellikle “veri bilimcisi” teriminin ortaya çıktığı yer olan San Francisco'da belirgindir. Bir noktada "veri bilimcisi" "istatistikçiyi" ele geçirdi ve aynı şeyin şimdi "veri bilimcisine" yavaş yavaş başlayıp başlamadığını merak ediyorum.

Kariyer tavsiyesi bu sitede konu dışı olarak listelenmiştir, ancak tanımları sorduğum için sorumu oldukça alakalı görüyorum; Kendi kariyer yörüngeme verilen öneriler ya da konu dışı diğer sorular gibi kişisel durumlarla ilgili sorular sormuyorum.

Bu soru konuyla ilgili çünkü bir gün bu sitenin birçok kullanıcısı için önemli etkileri olabilir. Aslında, "istatistikçi" vs "veri bilimcisi" evrimi gerçekleşmemişse, bu borsanın bulunduğu alan mevcut olmayabilir. Bu anlamda, bu oldukça ilgili, potansiyel olarak varoluşsal bir sorudur.


2
Data scientistAsıl işin ne olacağına dair netliği az olan bir tasarıma benziyor, ancak machine learning engineerdaha spesifik. İlk durumda, şirketiniz size bir hedef verecektir ve hangi yaklaşımı (makine öğrenmesi, görüntü işleme, sinir ağı, bulanık mantık vb.) Kullanacağınızı bulmanız gerekir. İkinci durumda, şirket zaten hangi yaklaşımın kullanılması gerektiğine daraldı.
gurvinder372

İlgili: veri bilimi vs operasyon araştırması . Ayrıca, bir bilim adamı mühendisden farklı bir şeydir . Maalesef, endüstri bununla ilgilenmiyor gibi görünüyor.
Ayrık kertenkele

1
Bir başkasının işaret ettiği gibi, bir ML mühendisi basitçe ML modellerini üretime sokan kişidir. Gerçek öngörü modellerini ve temel matematiğini derinlemesine anlaması beklenmiyor, ancak bu modelleri kullanılabilir kılan yazılım araçlarına hakim olmaları gerekiyor. Bir Veri Bilim İnsanının istatistik / matematik ve ML / AI ile ilgili derinlemesine bir anlayışa sahip olması beklenir ve genellikle ML mühendisleri tarafından kullanılan araçları oluşturan kişidir. Bu nedenle, bir ML mühendisi temelde uzman bir yazılım mühendisine, DS ise hesap istatistiklerine daha yakındır.
Digio

Yanıtlar:


55

İyi soru. Aslında bu konuda çok fazla kafa karışıklığı var, çünkü her ikisi de oldukça yeni işler. Ancak anlambilime odaklanırsak, işlerin gerçek anlamı açıklığa kavuşur.

Önceden, elmaları elmalarla karşılaştırmak, Veriler hakkında tek bir konu hakkında konuşmak daha iyidir. Makine Öğrenimi ve alt türü (Derin Öğrenme, vb.) Veri Dünyasının sadece bir yönüdür; istatistik teorileri, veri toplama (DAQ), işleme (makine dışı öğrenme odaklı olabilir) sonuçların yorumlanması vs.

Bu yüzden, açıklama için, Makine Öğrenim Mühendisi rolünü Veri Mühendisi rolüne taşıyacağım.

Bilim, deney, denemeler ve başarısızlıklar, teori geliştirme, fenomenolojik anlayışla ilgilidir. Mühendislik, bilimin zaten bildiği şeyler üzerinde çalışmak, onu mükemmelleştirmek ve “gerçek dünyaya” taşımakla ilgilidir.

Bir vekil hakkında düşünün: bir nükleer bilimci ile bir nükleer mühendis arasındaki fark nedir?

Nükleer bilim insanı, atomun arkasındaki bilimi, aralarındaki etkileşimi, atomlardan enerji almayı sağlayan tarifi yazan kişidir.

Nükleer mühendis, bilim adamının tarifini almak ve gerçek dünyaya taşımakla suçlanan kişidir. Bu yüzden, atom fiziği hakkında bilgisi oldukça sınırlıdır, fakat aynı zamanda materyalleri, binaları, ekonomiyi ve uygun bir nükleer santral inşa etmek için ne yararlı olacağını da bilir.

Veri dünyasına geri dönersek, işte bir başka örnek: Konvolüsyonel Sinir Ağları'nı (Yann LeCun) geliştiren adamlar bir Veri Bilimcisi, modelin resimlerdeki yüzleri tanımak için kullandığı kişi Makine Öğrenme Mühendisi. Veri toplama işleminden .JPG imajının kaydına kadar tüm işlemlerden sorumlu olan kişi bir Veri Mühendisidir.

Bu nedenle, temel olarak, bugün Veri Bilimcisinin% 90'ı aslında Veri Mühendisleri veya Makine Öğrenimi Mühendisleridir ve Veri Bilimcisi olarak açılan pozisyonların% 90'ı gerçekten Mühendislere ihtiyaç duymaktadır. Kolayca kontrol edin: Mülakatta, yayınladığınız yeni yöntemler hakkında kaç makale değil, üretimde kaç ML modeli kullandığınız sorulacak.

Bunun yerine, "Makine Öğrenimi Mühendisi" ile ilgili duyurular gördüğünüzde, bu, işe alım uzmanlarının aradaki farkın iyi farkında olduğu ve gerçekten de bir modeli prodüksiyona sokabilecek birine ihtiyaçları olduğu anlamına gelir.


Nükleer bilim insanlarına karşı mühendisi hiç düşünmedim, mühendis bunun tam bir cevap olduğunu düşünüyorum. Tecrübelerime uygun, analiz yaparken bu beyaz önlük gibi (jüpyter ve güzel grafikler). Mühendislik üretimi (etl & webapp konteynerleri) ile "ellerimi kirlettiğimde", sürekli garip kenar durumları, hatalar ve kötü kod kokusu buluyorum.
Tony,

Yann LeCun bir bilgisayar bilimcisi değil mi? Ve bir Veri Bilimcisi, verilerin bilimsel analizini yapmak için önceden yapılmış bilgisayar algoritmaları ve tekniklerini (Yann LeCun gibi Bilgisayar Bilimcileri tarafından icat edilmiş) kullanan biri olabilir mi? Diğer bilim adamlarının çalışmalarında bilgisayar kullandıkları şekilde mi? Yani veriyi almak, temizlemek, farklı analiz tekniklerini (çizim, desen eşleştirme, ML modelleri vb.) Bir araya getirerek verilerdeki gizli gerçekleri öğrenmek?
Didier A.,

YLC, gerçekten bir Bilgisayar Bilimcisidir, ancak Data konusunda uzmanlaşmıştır. CS, tüm bu yeni tanımların (DS gibi) gizlendiği çok geniş bir alan haline geldi. Ve böylece CS kullanarak gerçekten ayırt edici olmaz. Birkaç yüz yıl önceki temkinli "Fizikçi" gibi: bugün daha iyi belirtmediğiniz sürece bu kelime aslında birinin işini tanımlamıyor (ör. Parçacık P., Katı Hal P., vb.). Fakat yine de, bir Bilim Adamı (CS, DS, herhangi bir -S), başkalarının keşiflerini kullanmakla sınırlı kalan biri değildir. Bunun yerine, onun işi anlamak ve bu anlamda keşifler yapmaktır.
Vincenzo Lavorini

Kariyer rehberliği ile ilgili bu soruyu nazikçe cevaplayabilir misiniz? Data Engineer
stom

Bilim "fenomenolojik anlayış" hakkında nasıl?
ubadub

10

Terimler çok garip çünkü yeni

'Veri bilimi' alanında bir iş arayışının ortasında olmak, burada iki şey olduğunu düşünüyorum. İlk olarak, işler yenidir ve çeşitli terimlerin belirlenmiş tanımları yoktur, bu nedenle terimlerin iş tanımlarıyla eşleştirilmesi konusunda genel olarak anlaşılmamıştır. Bunu 'web geliştiricisi' veya 'arka uç geliştiricisi' ile karşılaştırın. Bunlar, oldukça iyi anlaşılmış ve farklı tanımlamalar yapan iki benzer iş.

İkincisi, iş ilanı ve ilk görüşmeleri yapan pek çok insan ne işe aldıklarını iyi bilmiyorlar. Bu, özellikle iş arayanları kendileri için başvuruda bulunan kişileri işe alan küçük ve orta ölçekli şirketler için geçerlidir. CareerBuilder ya da herhangi bir forumda iş tanımlarını yayınlayan bu aracılar. Bu, birçoğunun eşyalarını bilmediği, birçoğunun temsil ettiği şirketler ve işyerinin gereksinimleri hakkında oldukça bilgili olduğunu söylemek değildir. Ancak, farklı spesifik işleri tanımlamak için iyi tanımlanmış terimler olmadan, tehlikeli iş ünvanları genellikle sonuçtur.

Alanın üç genel bölümü vardır.

Tecrübelerime göre, veri biliminin 'iş alanının' üç genel bölümü var.

Birincisi, veri bilimini mümkün kılan matematiksel ve hesaplamalı tekniklerin geliştirilmesidir. Bu, yeni makine öğrenme yöntemlerine yapılan istatistiksel araştırma, bu yöntemlerin uygulanması ve bu yöntemlerin gerçek dünyada kullanılması için hesaplamalı altyapının oluşturulması gibi şeyleri kapsar. Bu, müşteriden en uzak olan ve en küçük olan bölümdür. Bu çalışmanın çoğu, büyük şirketlerdeki (Google, Facebook vb.) Akademisyenler veya araştırmacılar tarafından yapılır. Bu, Google’ın TensorFlow’unu, IBM’in SPSS sinir ağlarını veya bir sonraki büyük grafik veri tabanı ne olursa olsun geliştirmek gibi şeyler içindir.

İkinci bölüm, yapılması gereken veri analizini yapmak için uygulamaya özel paketler oluşturmak için temel araçları kullanıyor. İnsanlar, Python veya R'yi ya da bazı veri kümelerinde analiz kabiliyeti oluşturmak için ne kullanıyorsa işe alınırlar. Bu çalışmamın çoğu, benim deneyimlerime göre, 'veri çamaşırhanesi' yapılmasını, ne olursa olsun ham verileri kullanılabilir bir işe dönüştürmeyi içerir. Bu çalışmanın bir diğer büyük öbeği veri tabanları; Verilerin, ihtiyaç duyduğunuz zaman çizelgesine erişilebilecek şekilde nasıl saklanabileceğini bulmak. Bu iş çok fazla araç kullanmaz, ancak bazı sonuçlar üretmek için mevcut veritabanı, istatistikler ve grafik analiz kitaplıklarını kullanır.

Üçüncü bölüm, yeni organize edilmiş ve erişilebilir verilerden analizler üretiyor. Kuruluşunuza bağlı olarak, müşterinin en çok karşı karşıya olduğu taraf budur. İş liderlerinin karar almak için kullanabileceği bir analiz üretmek zorundasınız. Bu üç bölümün en az teknik olanı olacaktır; veri bilimi henüz başlangıç ​​aşamasında olduğundan birçok iş bu noktada ikinci ve üçüncü bölümler arasında melezdir. Ancak gelecekte, bu iki iş arasında daha temiz bir bölünme olacağından şüpheleniyorum, teknik, bilgisayar bilimi veya istatistik temelli eğitime ihtiyaç duyan ikinci işi ve genel bir eğitime ihtiyaç duyan bu üçüncü işi kazanıyor.

Genel olarak, her üç kişi de kendilerini 'veri bilimcisi' olarak tanımlayabilir, ancak yalnızca ilk ikisi kendilerini 'makine öğrenim mühendisi' olarak tanımlayabilir.

Sonuç

Şimdilik, her bir işin ne anlama geldiğini kendiniz bulmak zorunda kalacaksınız. Şu anki işim, bazı makine öğrenim işleri yapmak için beni “analist” olarak işe aldı. Ancak işe koyulduğumuzda, şirketin veritabanının yetersiz olduğu açıkça ortaya çıktı ve şimdi zamanımın% 90'ı veritabanları üzerinde çalışmaya harcandı. Makine öğrenmeye maruz kalmam, şimdi, scikit-learn paketinin en uygun göründüğü şekilde hızlı bir şekilde işleri yürütüyor ve müşteri için powerpoint sunumları yapmak için csv dosyalarını üçüncü bölüm analistlerine çekiyor.

Alan akı halinde. Birçok kurum veri biliminde karar vermeyi süreçlerine eklemeye çalışıyor, ancak bunun ne anlama geldiğini açıkça bilmiyor. Onların suçu değil, geleceği tahmin etmek oldukça zor ve yeni bir teknolojinin sonuçları hiç de net değil. Alan daha fazla kuruluncaya kadar, birçok iş kendileri onları tanımlamak için kullanılan terimler kadar tehlikelidir.


9

[Tamamen kişisel bir görüş]

'Veri Bilimcisi' terimi 'İstatistiği' ele geçirdiğinde, önemli bir farklılıktan çok, kulağa hoş geliyor. Benzer şekilde, 'Derin Öğrenme' terimi. Birkaç katmana sahip sadece sinir ağları (başka bir Makine Öğrenmesi algoritması). Belirli bir sinir ağının ML yerine DL olarak adlandırılabildiğini kimse tanımlayamaz, tanımın kendisi bulanık olabilir. Yani, 'Veri Bilimcisi' terimidir.

Bununla birlikte, şirketler DevOps zihniyetini veri bilimine uyarlarken, ML Engineer terimi gelişti.

DevOps'un veri bilimine zihniyeti nedir?

Bu, modeli oluşturduğunuz, uygulayacağınız ve aynı zamanda üretimde sürdürmesini beklediğiniz yerdir. Bu, yazılım ekiplerinde çok fazla sürtünmeden kaçınmaya yardımcı olur.

[PS: DevOps, daha çok bir felsefe gibi, yazılım yapmanın bir yoludur. Bu yüzden, onu bir atama olarak kullanmak, yine beni şaşırtıyor].

Bu nedenle, ML mühendislerinin sistem mühendisliği, ML ve istatistiklerin nüanslarını bilmeleri gerekiyor (açıkçası).

Belirsiz bir genelleme, Data Engineer + Data Scientist = ML Engineer olacaktır.

Diyelim ki, bu alandaki gösterimler günden güne belirsizleşiyor ve 'İstatistikçi' terimi gittikçe daha alakalı hale geliyor (ironi!).


2
Makine Öğrenimi sadece sinir ağlarından çok daha fazlasıdır (örneğin, her tür ağaç temelli sınıflandırıcıyı düşünün), bu nedenle "Derin Öğrenmenin sadece birkaç katmanla birlikte Makine Öğrenmesi olduğunu" görmeyin.
S. Kolassa - Monica'yı

@StephanKolassa Evet. Anlaşmak. Çok fazla genelleştirmemeliydim :) Gösterdiğiniz için teşekkürler.
Dawny33

1
(+1) fakat "istatistikçi" nin daha alakalı hale geldiğini sanmıyorum, ironi, sadece ... beklenen bir geçiş mi? Bugünlerde "operasyonel araştırmacılar" nerede? ;)
usεr11852, Reinstate Monic’in

7

Şirketten şirkete değişebilir, ancak bir atama olarak Data Scientist bir süredir buralarda olmuştur ve genellikle veriden bilgi ve içgörü elde etmek içindir .

Veri bilimcilerinin yaptığını gördüm

  • Görüntü işleme ve görüntü tanıma algoritmalarının yazılması,
  • İş amaçlı kullanım için karar ağaçları tasarlayıp uygulamak,
  • Veya basitçe bazı raporları tasarlayın ve uygulayın ya da veri dönüşümleri için ETL'ler yazın.

Bununla birlikte, veri bilimi , makine öğrenmenin süper bir alanıdır

Özellikle makine öğrenimi, sınıflandırma, küme analizi, belirsizlik ölçümü, hesaplama bilimi, veri madenciliği, veri tabanı, veri tabanı alt alanlarından geniş matematik, istatistik, bilgi bilimi ve bilgisayar bilimi alanlarında geniş alanlardan elde edilen teknikleri ve teorileri kullanır , ve görselleştirme .

Makine öğrenim mühendisi , işvereninizin çoktan daralttığı bir özellik gibi görünüyor

  • Yaklaşmak, yanaşmak, yaklaşım,
  • Araçlar,
  • ve kaba bir model (teslim edileceklerin)

Makine öğrenimini kullanarak verilerden bilgi ya da içgörü elde etmek ve işiniz aynı şeyi sağlamak için makine öğrenme algoritmaları tasarlamak ve uygulamak olacaktır .


5

Makine Öğrenimi Mühendisleri ve mühendislik odaklı Veri Bilimcisi aynıdır, ancak Veri Bilimcilerinin tümü mühendislik odaklı değildir. Yaklaşık 5 yıl önce neredeyse tüm Veri Bilimcisi mühendislik odaklıydı, örneğin üretim kodu yazmaları gerekiyordu. Bununla birlikte, şu an için çoğunlukla bir çok Veri Bilimcisi rolü var: Jupyter not defterinde oynamak, veriyi anlamak, güzel grafikler yapmak, müşterilere, yöneticilere, analistlere açıklamak ... Herhangi bir mühendislik yapmıyorlar. Ve Makine Öğrenimi Mühendisleri teriminin bu mühendislik pozisyonunun altını çizdiğine inanıyorum.


2

TL; DR: Kimin sorduğuna bağlı.

Bu sorunun cevabı büyük ölçüde kimin istediği beklentileri, bilgisi ve deneyimine dayanıyor. Bir cevap kadar bulanık olan benzer bir soru şudur:

Bir yazılım geliştirici, bir yazılım mühendisi ve bir bilgisayar bilimcisi arasındaki fark nedir?

Bazı insanlar için, özellikle bilgisayar bilimi ve yazılım mühendisliği eğitimi alan veya öğreten insanlar için, bu alanlar arasında büyük ve tanımlanmış bir fark vardır. Ancak ortalama İK çalışanı, teknik eleman veya yönetici için, bunların hepsi sadece "Bilgisayar Çalışanları" dır.

Vincent Granville'in bu sözünü seviyorum , benimkinin vurgusu:

Daha önce kariyerimde (1990 dolaylarında) uydu görüntülerinde kalıpları (örneğin gölleri) tanımlamak ve görüntü bölümlendirme yapmak için diğerlerinin yanı sıra görüntü uzaktan algılama teknolojisi üzerinde çalıştım: o zaman araştırmam hesaplamalı olarak etiketlendi. İstatistikler, ancak aynı şeyi yapan insanlar benim üniversitemdeki komşu bilgisayar bilimleri bölümünde, yapay zeka araştırmalarını aradılar. Bugün, veri işleme veya yapay zeka deniyordu ; alt alanlar ise sinyal işleme, bilgisayarla görme veya IoT.


1

Makine Öğrenmesi daha belirgindir ve bu alanda aşağıdakilere hakim olmanız gerekir:

  • Etiketler ve Etiketler
  • Test verileri vs Eğitim verileri
  • Özellik normalleştirme
  • Yaygın veri yapıları (diziler dizileri)
  • Öznitelik Seçimi

0

Verilen cevapların hiçbirine katılmıyorum. Bununla birlikte, buradaki cevapların neredeyse hepsinde ele alınan Data Scientist'in bir rolü olduğunu düşünüyorum. Bu cevapların çoğu, "Peki, bir mühendis sadece modeli yazar ve dağıtır." Bir saniye bekle - bu iki adımda bir sürü iş var!

Veri Bilim Adamı temel tanımım, bilimsel yöntemi veriyle çalışmak için uygulayan kişidir. Bu yüzden sürekli hipotezleri düşünüyorum, testler tasarladım, verilerimi topladım ve bu testleri yaptım, çapraz onaylama sonuçlarımı kontrol ettim, yeni yaklaşımlar denedim, verilerimi dönüştürdüm, vb. "profesyonel bir ortamda.

Bu yüzden, cevabınız için, "şeytan ayrıntıda" diye düşünüyorum, çünkü bu adımların / terimlerin bazılarını tam olarak anlayamazsınız. Ayrıca, eğer iş avı yapıyorsanız, dikkatli olmalısınız çünkü "veri mühendisi" ve "veri bilimcisi" kesinlikle farklı ödeme ölçeklerine sahip olabilir - bir veri mühendisi maaşında veri bilimcisi olmak istemezsiniz!

Kendimi her zaman bir veri bilimcisi olarak ortaya koyarım, şirketlere tahmine dayalı modeller üzerinde çalıştığımı (sadece analitik değil) ve bir Excel jokey olmadığımı - programlama dillerinde yazarım (R, Python, vb.). Her ikisini de yapabileceğiniz bir pozisyon bulabilirseniz, o zaman bir veri bilimcisi olma yolundasınız demektir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.