Terimler çok garip çünkü yeni
'Veri bilimi' alanında bir iş arayışının ortasında olmak, burada iki şey olduğunu düşünüyorum. İlk olarak, işler yenidir ve çeşitli terimlerin belirlenmiş tanımları yoktur, bu nedenle terimlerin iş tanımlarıyla eşleştirilmesi konusunda genel olarak anlaşılmamıştır. Bunu 'web geliştiricisi' veya 'arka uç geliştiricisi' ile karşılaştırın. Bunlar, oldukça iyi anlaşılmış ve farklı tanımlamalar yapan iki benzer iş.
İkincisi, iş ilanı ve ilk görüşmeleri yapan pek çok insan ne işe aldıklarını iyi bilmiyorlar. Bu, özellikle iş arayanları kendileri için başvuruda bulunan kişileri işe alan küçük ve orta ölçekli şirketler için geçerlidir. CareerBuilder ya da herhangi bir forumda iş tanımlarını yayınlayan bu aracılar. Bu, birçoğunun eşyalarını bilmediği, birçoğunun temsil ettiği şirketler ve işyerinin gereksinimleri hakkında oldukça bilgili olduğunu söylemek değildir. Ancak, farklı spesifik işleri tanımlamak için iyi tanımlanmış terimler olmadan, tehlikeli iş ünvanları genellikle sonuçtur.
Alanın üç genel bölümü vardır.
Tecrübelerime göre, veri biliminin 'iş alanının' üç genel bölümü var.
Birincisi, veri bilimini mümkün kılan matematiksel ve hesaplamalı tekniklerin geliştirilmesidir. Bu, yeni makine öğrenme yöntemlerine yapılan istatistiksel araştırma, bu yöntemlerin uygulanması ve bu yöntemlerin gerçek dünyada kullanılması için hesaplamalı altyapının oluşturulması gibi şeyleri kapsar. Bu, müşteriden en uzak olan ve en küçük olan bölümdür. Bu çalışmanın çoğu, büyük şirketlerdeki (Google, Facebook vb.) Akademisyenler veya araştırmacılar tarafından yapılır. Bu, Google’ın TensorFlow’unu, IBM’in SPSS sinir ağlarını veya bir sonraki büyük grafik veri tabanı ne olursa olsun geliştirmek gibi şeyler içindir.
İkinci bölüm, yapılması gereken veri analizini yapmak için uygulamaya özel paketler oluşturmak için temel araçları kullanıyor. İnsanlar, Python veya R'yi ya da bazı veri kümelerinde analiz kabiliyeti oluşturmak için ne kullanıyorsa işe alınırlar. Bu çalışmamın çoğu, benim deneyimlerime göre, 'veri çamaşırhanesi' yapılmasını, ne olursa olsun ham verileri kullanılabilir bir işe dönüştürmeyi içerir. Bu çalışmanın bir diğer büyük öbeği veri tabanları; Verilerin, ihtiyaç duyduğunuz zaman çizelgesine erişilebilecek şekilde nasıl saklanabileceğini bulmak. Bu iş çok fazla araç kullanmaz, ancak bazı sonuçlar üretmek için mevcut veritabanı, istatistikler ve grafik analiz kitaplıklarını kullanır.
Üçüncü bölüm, yeni organize edilmiş ve erişilebilir verilerden analizler üretiyor. Kuruluşunuza bağlı olarak, müşterinin en çok karşı karşıya olduğu taraf budur. İş liderlerinin karar almak için kullanabileceği bir analiz üretmek zorundasınız. Bu üç bölümün en az teknik olanı olacaktır; veri bilimi henüz başlangıç aşamasında olduğundan birçok iş bu noktada ikinci ve üçüncü bölümler arasında melezdir. Ancak gelecekte, bu iki iş arasında daha temiz bir bölünme olacağından şüpheleniyorum, teknik, bilgisayar bilimi veya istatistik temelli eğitime ihtiyaç duyan ikinci işi ve genel bir eğitime ihtiyaç duyan bu üçüncü işi kazanıyor.
Genel olarak, her üç kişi de kendilerini 'veri bilimcisi' olarak tanımlayabilir, ancak yalnızca ilk ikisi kendilerini 'makine öğrenim mühendisi' olarak tanımlayabilir.
Sonuç
Şimdilik, her bir işin ne anlama geldiğini kendiniz bulmak zorunda kalacaksınız. Şu anki işim, bazı makine öğrenim işleri yapmak için beni “analist” olarak işe aldı. Ancak işe koyulduğumuzda, şirketin veritabanının yetersiz olduğu açıkça ortaya çıktı ve şimdi zamanımın% 90'ı veritabanları üzerinde çalışmaya harcandı. Makine öğrenmeye maruz kalmam, şimdi, scikit-learn paketinin en uygun göründüğü şekilde hızlı bir şekilde işleri yürütüyor ve müşteri için powerpoint sunumları yapmak için csv dosyalarını üçüncü bölüm analistlerine çekiyor.
Alan akı halinde. Birçok kurum veri biliminde karar vermeyi süreçlerine eklemeye çalışıyor, ancak bunun ne anlama geldiğini açıkça bilmiyor. Onların suçu değil, geleceği tahmin etmek oldukça zor ve yeni bir teknolojinin sonuçları hiç de net değil. Alan daha fazla kuruluncaya kadar, birçok iş kendileri onları tanımlamak için kullanılan terimler kadar tehlikelidir.
Data scientist
Asıl işin ne olacağına dair netliği az olan bir tasarıma benziyor, ancakmachine learning engineer
daha spesifik. İlk durumda, şirketiniz size bir hedef verecektir ve hangi yaklaşımı (makine öğrenmesi, görüntü işleme, sinir ağı, bulanık mantık vb.) Kullanacağınızı bulmanız gerekir. İkinci durumda, şirket zaten hangi yaklaşımın kullanılması gerektiğine daraldı.