Doktora programımdan son zamanlarda istatistiklerden mezun olduktan sonra son birkaç aydır istatistik alanında iş aramaya başladım. Neredeyse her şirkette " Data Scientist " ünvanı olan bir iş ilanı vardı . Aslında, çoktan gitmiş gibi hissetmek, İstatistik Bilimcisi ya da İstatistikçi iş unvanlarını görmenin günleriydi . Veri bilimcisi olmak, istatistikçi olmanın yerini aldı mı ya da merak ettiğim başlıklar mıydı?
İşlerin niteliklerinin çoğu, istatistikçi unvanına uygun niteliklere sahipti. Çoğu iş, istatistik ( ), en çok gerekli deneysel tasarım ( ), doğrusal regresyon ve anova ( ), genelleştirilmiş doğrusal modeller ( ) ve PCA ( ) gibi diğer çok değişkenli yöntemleri anlama konusunda doktora istedi. ve ayrıca R veya SAS ( ) gibi istatistiksel bir bilgi işlem ortamındaki bilgiler . Bir veri bilimcisi gibi görünüyor gerçekten istatistikçiler için sadece bir kod adıdır.✓ ✓ ✓ ✓ ✓
Ancak, yaptığım her röportajda şu soruya başladım: "Makine öğrenme algoritmalarına aşina mısın?" Sık sık değil, kendimi büyük veriler, yüksek performanslı bilgi işlem ve sinir ağları, CART, vektör makinelerini destekleme, ağaçları artırma, denetlenmeyen modeller, vb. İle ilgili soruları denemek ve cevaplamak zorunda buldum. kalpte istatistiksel sorular, ancak her röportajın sonunda yardımcı olamadım, ancak bir veri bilimcisinin ne olduğu hakkında daha az şey bildiğimi hissediyorum.
Ben istatistikçiyim ama veri bilimcisi miyim? Bilimsel problemler üzerinde çalışıyorum, bu yüzden bilim adamı olmalıyım! Ayrıca verilerle çalışıyorum, bu yüzden bir veri bilimcisi olmalıyım! Ve Wikipedia'ya göre çoğu akademisyen benimle aynı fikirdeydi ( https://en.wikipedia.org/wiki/Data_science , vs.)
İş dünyasında "veri bilimi" teriminin kullanımı patlamış olsa da, birçok akademisyen ve gazeteci veri bilimi ile istatistik arasında bir fark görmüyor.
Fakat bir veri bilimci pozisyonu için tüm bu iş görüşmelerine devam edersem, neden bana asla istatistiksel sorular sormuyorlar gibi geliyor?
Son görüşmemden sonra iyi bir bilim adamının yapmasını istedim ve bu sorunu çözmek için veri aradım (hey, sonuçta veri bilimcisiyim). Bununla birlikte, birçok sayısız Google araması yapıldıktan sonra, bir veri bilimcisinin ne olduğunun tanımıyla bir kez daha boğuşuyormuşum gibi hissetmeye başladım. Bir veri bilimcisinin tam olarak ne olduğunu bildiğim için pek çok tanımı yoktu, ( http://blog.udacity.com/2014/11/data-science-job-skills.html , http: // www -01.ibm.com/software/data/infosphere/data-scientist/ ) ama herkes bana bir tane olmak istediğimi söylüyor gibiydi:
- https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/
- http://mashable.com/2014/12/25/data-scientist/#jjgsyhcERZqL
- vb .... liste devam ediyor.
Günün sonunda, anladım ki "veri bilimcisi nedir" sorusu cevaplaması çok zor. Heck, Amstat'ta iki ay vardı, bu soruyu cevaplamaya çalışmak için zaman ayırdılar:
- http://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/
- http://magazine.amstat.org/blog/2015/11/01/statnews2015/
Şimdilik, veri bilimcisi olmak için seksi bir istatistikçi olmak zorundayım ama umarım çapraz onaylanmış topluluk biraz ışık tutabilir ve veri bilimcisi olmanın ne demek olduğunu anlamama yardımcı olabilir. Tüm istatistikçiler veri bilimcileri değil midir?
(Edit / Güncelleme)
Bunun sohbeti arttıracağını düşündüm. Amerikan İstatistik Kurumu'ndan Microsoft ile Veri Bilim Adamı arayan bir iş hakkında bir e-posta aldım. İşte link: Veri Bilimci Durumu . Bunun ilginç olduğunu düşünüyorum çünkü pozisyonun rolü, bahsettiğimiz birçok özel özelliğe dayanıyor, ancak bunların çoğunun, istatistiklerin yanı sıra aşağıda verilen cevapların çoğu ile çelişen çok titiz bir arka plan gerektirdiğini düşünüyorum. Bağlantının kesilmesi durumunda, Microsoft'un bir veri bilimcisinde aradığı özellikler şunlardır:
Temel İş Gereksinimleri ve Becerileri:
Analytics'i Kullanarak İş Etki Alanı Deneyimi
- Karmaşık işletme problemlerini kavramsallaştırmak için eleştirel düşünme becerilerinin kullanımında ve büyük ölçekli gerçek dünyadaki iş veri setlerinde gelişmiş analitik kullanarak çözümlerini ilgili birçok işletme alanında deneyime sahip olmalıdır.
- Aday, bağımsız bir şekilde analitik projeler yürütebilmeli ve şirket içi müşterilerimizin bulgularını anlamalarına ve işlerine fayda sağlamak için eyleme dönüştürmelerine yardımcı olmalıdır.
Tahmini Modelleme
- Tahmini modellemede endüstriler arasında deneyim
- Önemli problemleri ortaya çıkarmak ve sistem kapsamını tanımlamak için müşteri ile iş probleminin tanımı ve kavramsal modellemesi
İstatistik / Ekonometri
- Sürekli ve kategorik veriler için keşif veri analizi
- İşletme ve tüketici davranışları için yapısal model denklemlerinin belirlenmesi ve tahmini, üretim maliyeti, faktör talebi, kesikli seçim ve gerektiğinde diğer teknoloji ilişkileri
- Sürekli ve kategorik verileri analiz etmek için gelişmiş istatistiksel teknikler
- Zaman serileri analizi ve tahmin modellerinin uygulanması
- Çok değişkenli problemlerle çalışma konusunda bilgi ve tecrübe
- Model doğruluğunu değerlendirebilmek ve tanı testleri yapabilmek
- İstatistik veya ekonomik modelleri yorumlayabilme
- Kesikli olay simülasyonu oluşturma ve dinamik simülasyon modelleri hakkında bilgi ve tecrübe
Veri yönetimi
- Veri dönüşümü için T-SQL ve analitik kullanımına ve çok büyük gerçek dünya veri kümeleri için keşif veri analizi tekniklerinin uygulanmasına aşinalık
- Veri fazlalığı, veri doğruluğu, anormal veya aşırı değerler, veri etkileşimleri ve eksik değerler dahil veri bütünlüğüne dikkat.
İletişim ve İşbirliği Becerileri
- Bağımsız çalışın ve zorlu iş sorunlarına yenilikçi çözümler araştıracak sanal bir proje ekibiyle çalışabilir
- Ortaklarla işbirliği yapın, eleştirel düşünme becerileri uygulayın ve analitik projeleri baştan aşağı yönlendirin
- Hem sözlü hem de yazılı olarak üstün iletişim becerileri
- Analitik sonuçların görselleştirilmesi, çeşitli paydaşlar tarafından tüketilebilecek bir biçimde
Yazılım paketleri
- Gelişmiş İstatistik / Ekonometrik yazılım paketleri: Python, R, JMP, SAS, Eviews, SAS Kurumsal Madenci
- Veri keşfi, görselleştirme ve yönetim: T-SQL, Excel, PowerBI ve eşdeğer araçlar
Nitelikler:
- Minimum 5+ yıl ile ilgili deneyim gerekli
- Kantitatif alanda lisans üstü derecesi istenmektedir.