Bir veri bilimcisinin işi ne kadar veri tartışmasıdır?


44

Halen perakende bir şirkette veri bilimcisi olarak çalışıyorum (DS olarak ilk işim, bu yüzden bu soru deneyim eksikliğimin bir sonucu olabilir). Uygulanırsa büyük olumlu etkileri olabilecek çok önemli veri bilimi projelerinin büyük bir birikimi var. Fakat.

Veri boru hatları şirket içinde mevcut değil, standart prosedür bana biraz bilgiye ihtiyacım olduğunda gigabayt TXT dosyalarını vermeleri . Bu dosyaları, arkne notasyonu ve yapısında saklanan işlemlerin tablo günlükleri olarak düşünün. Tek bir veri kaynağında hiçbir bilgi parçası bulunmuyor ve "güvenlik nedeniyle" ERP veritabanlarına erişim izni veremiyorlar.

En basit proje için ilk veri analizi acımasız, dayanılmaz veri bozmayı gerektirir. Bir projenin harcanan zamanının% 80'inden fazlası, geçerli veri kümeleri oluşturmak için bu dosyaları ayrıştırmaya ve veri kaynaklarını geçmeye çalışıyorum . Bu, sadece eksik verilerin ele alınması ya da ön işleme tabi tutulmasıyla ilgili bir sorun değildir , ilk başta ele alınabilecek veri oluşturmak için gereken çalışmadır ( dba veya veri mühendisliği tarafından çözülebilir, veri bilimi değil mi? ).


1) Çalışmanın çoğu, veri bilimi ile ilgili değil gibi görünüyor. Bu doğru mu?

2) Bunun yüksek düzeyde veri mühendisliği departmanına sahip veri odaklı bir şirket olmadığını biliyorum, ancak veri bilimi projelerinin sürdürülebilir bir geleceği için inşa etmek için asgari veri erişilebilirliği seviyelerinin gerekli olduğu kanısındayım . Yanlış mıyım?

3) Bu tür kurulum ciddi veri bilimi ihtiyacı olan bir şirket için ortak mıdır?


Bilgilerin hangi formatta olmasını istediğinizi belirlediniz mi? Ve onlara ERP ile nasıl başarabilecekleri konusunda talimatlar verin.
jonnor

@ jonnor Elbette. Neredeyse iki yıldır burada çalışıyorum ve ilk günden beri veri erişilebilirliği için nasıl daha iyi bir platform oluşturabileceğimizi açıkladım. Şirketin 30 yıldır yaptıklarını değiştirmede güçlü bir direniş var.
Victor Valente,

13
Saatlerinizi izlemeye başlayın ve TXT'yi tekrar kullanılabilir bir formata dönüştürerek zamanınızı boşa harcadıkları maliyete dönüştürün. $ Rakamı bir kez olsun, bahse girerim yapabilirler.
Nelson

Zamanınızdaki bir yük ise, dış kaynak olabilir.
Sarcoma

Bir şirketin bir Data Scientist'i işe alması ve yine de değişime dirençli olması konusunda kafa karıştırıcı olduğunu biliyorum. Onlara boşa harcanan zaman miktarını ve etrafta gerçek güvenlik olmadan uzun TXT dosyalarında veri bulundurma riskini göstermelisiniz
Pedro Henrique Monforte

Yanıtlar:


27
  1. İşin çoğunun veri bilimi ile hiç alakası yokmuş gibi geliyor. Bu doğru mu?

    Evet

  2. Bunun yüksek düzeyde veri mühendisliği departmanına sahip veri odaklı bir şirket olmadığını biliyorum, ancak veri biliminin asgari düzeyde veri erişilebilirliği gerektirdiği kanısındayım. Yanlış mıyım?

    Yanlış değilsin, ama gerçek hayatın gerçekleri böyle.

  3. Bu tür kurulum ciddi veri bilimi ihtiyacı olan bir şirket için ortak mıdır?

    Evet

Teknik açıdan, hayatınızı kolaylaştıracak ETL çözümlerine bakmanız gerekir. Bazen bir araç belirli verileri okumak için diğerinden çok daha hızlı olabilir. Örneğin, R'nin readxl'i, xlsx dosyalarını okumak için python'un pandalarından daha hızlı mangnim emirleridir; Dosyaları içe aktarmak için R'yi kullanabilir, daha sonra onları Python-dostu bir biçime (parke, SQL vb.) kaydedebilirsiniz. Xlsx dosyaları üzerinde çalışmadığınızı biliyorum ve Python kullanıyorsanız hiçbir fikrim yok - bu sadece bir örnekti.

Pratik açıdan bakıldığında, iki şey:

  • Her şeyden önce, teknik olarak neyin mümkün olduğunu anlayın. Çoğu durumda, bildiğinizi söyleyenler, işletme veya uyumluluk hakkında endişelenen, ancak BT açısından neyin mümkün olup neyin mümkün olduğu konusunda hiçbir fikri olmayan, BT konusunda okuma yazma bilmeyen insanlardır. DBA'larla veya veri altyapısını yönetenlerle konuşmaya çalışın. Teknik olarak neyin mümkün olduğunu anlayın. Daha sonra, ancak o zaman bir uzlaşma bulmaya çalışın. Örneğin, sistemlerine erişiminizi sağlamayacaklar, ama arkasında bir veritabanı olduğunu varsayıyorum? Belki de verileri başka formatlara çıkarabilirler? Belki veri tiplerini vb tanımlayan SQL ifadelerini çıkarabilirler?

  • Bunu yapmanın onların yararına olduğu davalarını yapabilirseniz, iş adamları size daha fazla yardımcı olurlar. Yaptıklarına inanmıyorlarsa, şansın yaver gitmez ...


2
Bir ETL çözümü bulma / satın alma konusunda mükemmel nokta. Eklemeniz gereken: rahat bir kurulum seçin ve kolayca okuyabilir / hata ayıklayabilirsiniz. Görevlerin otomatikleştirilmesinin ilk aşamalarında, bu en hızlı veri slurp aracını bulmaktan daha önemlidir. Metin dizileri varsa, genellikle bir gecede çalışır ve bir araç / çerçeve / dil ile akıcılığınız, iyi veriye uyanmak veya yeniden başlamak zorunda olduğunuz bir şey arasında fark yaratabilir. Sadece bir tek kullanımlık verimlilik avantajlarını ortadan kaldırabilir. Hızlı ve tökezlemekten daha az böcekle sabit kalmak daha iyi.
Jason,

2
Doğru. Ama aynı zamanda, aşırı zaman kaybetme. Önceliklerinizi akıllıca seçin. Verilerin içe aktarılması tek seferlikse, içe aktarma süresinin 2 saatten 30 dakikaya nasıl düşürüleceğini arayan günleri harcamayın. Vb
PythonGuest

39

Bu, birçok blog, şirket ve makalenin birçok durumda gerçek bir şey olarak kabul ettiği bir durumdur.

Bu Yazıda Büyük Veri İçin Veri Wrangling: Zorluklar ve Fırsatlar , bununla ilgili bir alıntı var

veri bilimcileri zamanlarının yüzde 50'sinden yüzde 80'ini harcıyor

dijital olmayan verilerin toplanması ve hazırlanması.

Ayrıca, bu yazının kaynağını The New York Times, Büyük Veri Bilimciler İçin, 'Kapıcı Çalışması' Konusunda Öngörü Vardır.

Ne yazık ki, gerçek dünya Kaggle gibi değil. Veri Arama'yı biraz temizlemeyle başlatabileceğiniz bir CSV veya Excel dosyası alamazsınız. Verileri gereksinimlerinize uygun olmayan bir biçimde bulmanız gerekir.

Yapabileceğiniz şey, eski verileri olabildiğince kullanmak ve yeni verilerin depolanmasını sizin (veya gelecekteki bir meslektaşınızın) çalışması için daha kolay bir süreçte düzenlemeye çalışmaktır.



4
Forbes hiçbir yerde "veri bilimi" kelimesiyle birlikte belirtilmemelidir.
52'de

% 50-80 (teklife göre) "görüşmeler ve uzman tahminlerine"
dayanarak

3
@ Görüşlü bir ankete ilişkin görüş temelli bir görüş hakkında görüş temelli bir görüşe dayalı görüş temelli bir görüş hakkında görüş temelli bir yorum. Bunu "Data Science" SE'de bulacağını kim bilebilirdi?
Keeta


7
  1. İşin çoğunun veri bilimi ile hiç alakası yokmuş gibi geliyor. Bu doğru mu?

    Wrangling verileri kesinlikle Data Scientist iş tanımındadır. Bir seviyede, çözümleri yönlendirmek için kullanmak için veri üretme sürecini anlamanız gerekir. Elbette, ETL'de uzmanlaşmış bir kişi bunu daha hızlı / daha verimli hale getirebilirdi, ancak veri dökümü verilmesi gerçek dünyada nadir değildir. Veri biliminin bu yönünden hoşlanmıyorsanız, erişebileceğiniz bir depoya doğru şekilde veri toplamak için BT kaynaklarıyla daha yakından çalışma fırsatı olabilir. Alternatif olarak, verileri daha iyi sırada olan bir iş de bulabilirsiniz.

  2. Bunun yüksek düzeyde veri mühendisliği departmanına sahip veri odaklı bir şirket olmadığını biliyorum, ancak veri biliminin asgari düzeyde veri erişilebilirliği gerektirdiği kanısındayım. Yanlış mıyım?

    Bence asgari seviye txt dosyaları. Verilere metin dosyaları yoluyla erişebiliyorsanız, veritabanındaki verilere erişebilmelisiniz (üstlerine bunu tekrar yazınız).

  3. Bu tür kurulum ciddi veri bilimi ihtiyacı olan bir şirket için ortak mıdır?

    Evet. Sen veri SCIENTIST'sin; sen uzmansın Başkalarını mevcut veri yapısının yetersizlikleri ve nasıl yardım edebileceğiniz konusunda eğitmek işinizin bir parçasıdır. Kullanılamayan veriler kimseye yardım etmiyor. İşleri daha iyi hale getirme ve şirketin geleceğini şekillendirme şansınız var.


6

Veri Biliminde yeni bir başlangıç ​​olarak, yalnızca deneyiminizin benzersiz olmadığını sanmıyorum, yaklaşık 10 kişilik ekibim bir yıldan fazla bir süredir DS yapmadı (2 kişiyi işgal eden küçük bir proje) takım). Bu, ekibin üzerinde çalıştığı etkili bir boru hattının vaadi nedeniyle ancak yine de verileri tam olarak vermiyor. Görünüşe göre tutma geçmişte oldukça zayıftı ve gelecekteki DS projeleri için kutsal bir MS Azure ortamı için sürekli bir vaat vardı.

Yani cevap vermek için:

1) Evet tamamen doğru

2) Hayır, haklısın, ancak istediğin verilere ulaşmak için (eğer varsa) erişmek için bir yokuş yukarı savaş.

3) Orada diğerlerinden daha iyi şirketler var eminim. Şu anki şirketinizde duramazsanız, 2 yıl iyi bir zaman dilimidir, daha parlak şeyler aramaya başlayın (mevcut işinizden ayrılma arzunuzu nasıl ifade ettiğinize dikkat edin, "daha dinamik bir şekilde çalışmak isteyin" gibi) "eski şirketim bana veri vermez" den daha iyi ses çıkarırdı.


5

Buna "bu benim işim değil, neden yapmalıyım?" Perspektifinden bakarsanız, bu veri bilimine özgü olmayan oldukça yaygın, genel bir sorundur. Sonuçta, sizin işiniz patronun yapmasını istediği şeyi yapmaktır, ancak pratikte patronun bu konuda diktatörlük yapması için çok az sebep vardır ve genellikle ikna edilebilirler. Ya da en azından neden bu şekilde olması gerektiğine dair samimi bir açıklama yapacaklar. Ancak, otoriteye hitap ettiği sürece, yalnızca% X oranında veri temizliği yapabileceğinizi söyleyen resmi bir "Veri Bilimi" tanımı yoktur. Otorite, kim size para ödüyorsa, size ödemeyi durdurma konusunda yasal hakları olduğu sürecedir.

Buna başka bir açıdan da bakabilirsiniz: Bu, zamanınızı iyi kullandı mı? Bazı işler yapmak için bir işe girmiş gibisiniz ("veri bilimi" ile kastediyorsunuz) ama başka bir şey yapmak zorundasınız (buna "veri wrangling" diyorsunuz). İş tanımları ve kişisel duygular burada konunun biraz ötesinde çünkü daha uygun bir şey var: Şirket, muhtemelen sadece yapabileceğiniz bir şeyi (veri bilimi) yapmak için size iyi bir miktar para ödüyor. Ama bunun yerine, daha yetenekli, daha motive veya daha ucuz bir kombinasyonun kombinasyonu olan diğer insanlar tarafından yapılabilecek başka şeyler yapmanıza izin veriyor. Verilerin kesilmesi, maaşınızın yarısını yapan biri tarafından yapılabiliyorsa, aynı şeyi yapmak için size iki kat fazla ödeme yapmanın bir anlamı yoktur. Daha hızlı yapılabilirsebirisi tarafından aynı maaş ödenmiş, aynı mantık geçerlidir. Bu nedenle, şirketin bu görevi size vermesi, bir kaynak israfıdır (özellikle para). Bu açıdan bakıldığında, üstlerinizin şeylerin tarafını görmesini sağlamak için çok daha kolay bulabilirsiniz.

Elbette, günün sonunda, birileri verileri bozdurmak zorunda. Bunu yapmanın en ucuz, en hızlı, en kolay yolu, iş için en iyi kişi olabilir. Bu durumda, biraz şanssızsın. Sözleşmenizin bir parçası olmadığını iddia etmeye çalışabilirsiniz, ancak sözleşmeye özgü bir şey koymak için yeterince saf olma ihtimalleri nelerdir?


3

Belki de basitçe söylemek gerekirse:

  • Değişkenler oluştururken ve sayısal sayıları yazarken, bunu kör olarak mı yoksa verilerinizi analiz ettikten sonra mı yaparsınız?
  • Akranlar bulgularınızı gözden geçirdiğinde, belirli veri parçaları hakkında soruları olursa, onları bilmemeniz sizi utandırır mı?

Verilerinizle birlikte çalışmanız ve anlamanız gerekir; bu, tutarsızlıkların düzeltilmesinden (NULL'ler, boş dizeler, "-"), toplanan verilerin görüntülenmeye nasıl gittiğini anlamak için basit şeyler içerir. İşlemek, aynı bilgi parçalarını bilmeyi içerir, bu yüzden yine de yapmak zorunda kalabileceğiniz bir iştir.

Şimdi, bu şirketin verilerinizi tutabilmek için bir çeşit ücretsiz MySQL (veya benzeri) örneği oluşturmaktan fayda sağlayabileceği anlaşılıyor. Wrangling kodunuzu tasarlarken esnek olmaya çalışmak da iyi bir fikirdir - işlenmiş verilerin orta veri kümesine sahip olmanıza izin verilirse (ve MySQL'de yapamazsanız) faydalı olacağını düşünüyorum.

Ama elbette hala işleri sıfırdan başlatıyorsunuz. Bu kolay bir süreç değil, fakat bu "öğrenme deneyimi" özgeçmişinize koymak için en azından iyidir.


3

1) Çalışmanın çoğu, veri bilimi ile ilgili değil gibi görünüyor. Bu doğru mu? Benim düşünceme göre, Veri Bilimi Veri tartışmasından çıkamıyor. Ancak, dediğiniz gibi, bir soru, bir Veri Bilim İnsanının yapması gereken Veri Wrangling'in yüzde kaçını gerektiriyor. Örgütlerin bant genişliğine ve bu tür işlere ilgi duyan insanlara bağlıdır. DS olarak 15 ila 16 yıllık deneyimlerime göre, veri düzenleme faaliyetlerinde% 60 ile% 70 arasında bir zaman harcadım ve gerçek analizde% 15 ile maksimum zaman harcadım. bu yüzden aramanı al.

2) Bunun yüksek düzeyde veri mühendisliği departmanına sahip veri odaklı bir şirket olmadığını biliyorum, ancak veri biliminin asgari düzeyde veri erişilebilirliği gerektirdiği kanısındayım. Yanlış mıyım? Yine kuruluşun güvenlik politikalarına bağlıdır. Her şeyi size bırakamazlar ve verileri geçici çalışan olan bir kişiye göstermek için kendi güvenlik sorunları vardır (bu kelimeleri kullandığım için üzgünüm :-()

3) Bu tür kurulum ciddi veri bilimi ihtiyacı olan bir şirket için ortak mıdır? Bu tür şirketlerin, veri odaklı modellemenin işlerini sürdürmenin geleceği olduğunu hissettirmek için Veri Bilimcilerinden en fazla dikkat gerektirdiğini düşünüyorum. :-)

Verdiğim bilgileri teknik duruş noktaları yerine işletmeleri düşünmeye verdim. :-) Umarım kelimeler seçimimde netimdir.


3

Turing ödüllü Michael Stonebraker, "Büyük Veri Dört Farklı Sorun" konuşmasında bu konuyu büyük bir sorun olarak görüyor ( video , slaytlar ).

Bu alanda çok sayıda açık sorun olduğunu söylüyor: Al, Dönüştür (örneğin, euro / dolar), Temiz (örneğin-99 / Null), Şema haritalaması (örneğin, ücret / maaş), İşletme konsolidasyonu (örneğin, Mike Stonebraker / Michael). Taş kırıcı)

Bu problemi çözmek için Tamr, Alteryx, Trifacta, Paxata, Google Refine gibi birçok firma / ürün var.

Bu alan olgunlaşana kadar, birçok veri bilim insanı işi gerçekten veri sıkışıklığı olacaktır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.