Bu ne hakkında
Sadece teknikleri bilmek, hayvanat bahçesindeki hayvanları tanımaya benzer - onları adlandırabilir, özelliklerini tanımlayabilir, belki de vahşi doğada tanımlayabilirsiniz.
Bunları ne zaman kullanacağınızı, uygulama alanlarındaki çalışma matematiksel modellerini formüle etmek, inşa etmek, test etmek ve yerleştirmek, tuzaklardan kaçınırken --- bunlar bence ayırt edici olan yeteneklerdir.
İş dünyasında, sınai ve ticari sorunlara sistematik, bilimsel bir yaklaşım uygulayarak vurgu bilim üzerinde olmalıdır . Ancak bu, Robin Bloor'un "A Data Science Rant" da ikna edici bir şekilde savunduğu gibi, veri madenciliği ve makine öğrenmesinden daha geniş beceriler gerektirir .
Peki biri ne yapabilir?
Uygulama alanları : ilginize veya işvereninize yakın olan çeşitli uygulama alanları hakkında bilgi edinin. Alan, modelin nasıl inşa edildiğini ve bu alana değer katmak için nasıl kullanıldığını anlamaktan daha az önemlidir. Bir alanda başarılı olan modeller çoğu zaman benzer şekilde çalışan farklı alanlara nakledilebilir ve uygulanabilir.
Yarışmalar : Tercihen başka bir takıma katılan , veri madenciliği rekabet sitesi Kaggle'ı deneyin . (Kaggle: prediktif modelleme yarışmalarına yönelik bir platform. Şirketler, hükümetler ve araştırmacılar veri setleri ve sorunları sunar ve dünyanın en iyi veri bilimcileri en iyi çözümleri üretmek için rekabet eder.)
Temelleri : Dört tane var: (1) istatistikte sağlam bir temel, (2) oldukça iyi programlama becerileri, (3) karmaşık veri sorgularının nasıl yapılandırılacağını anlamak, (4) veri modellerini oluşturmak. Eğer zayıfsa, başlamak için önemli bir yer.
Bu konuda birkaç alıntı :
“Bir şeyin adını bilmekle bir şeyi bilmek arasındaki farkı çok erken öğrendim. Dünyanın bütün dillerinde bir kuşun adını biliyorsunuz, ama işiniz bittiğinde, kuş hakkında hiçbir şey bilmeyeceksiniz ... O halde kuşa bakalım ve ne yaptığını görelim - bu Önemli olan '' - Richard Feynman, "Bir Bilim İnsanının Yapılması", p14, Başkalarının Ne Düşündüğünü Önemsiyor, 1988
Aklında tut:
“Bu işletme bilimi [veri bilimi] projelerini yürütmek için gereken becerilerin birleşimi nadiren bir kişide bulunur. Biri (i) işin ne yaptığı, (ii) istatistiklerin nasıl kullanılacağı ve (iii) veri ve veri akışlarının nasıl yönetileceği hakkında üçlü alanda kapsamlı bilgiye ulaşmış olabilir . Öyleyse, gerçekten de belirli bir sektörde bir işletme bilimcisi (yani, “veri bilimcisi”) olduğunu iddia edebilir. Ancak bu tür bireyler neredeyse dişlerin dişleri kadar nadirdir. '' - Robin Bloor, Bir Veri Bilim Rantı , Ağustos 2013, İç Analiz
Ve sonunda:
`` Harita Bölge Değil. '' - Alfred Korzybski, 1933, Science & Sanity.
Gerçek, uygulanan sorunların çoğuna yalnızca “haritadan” erişilemez. Matematiksel modelleme ile pratik şeyler yapmak için, detaylar, incelikler ve istisnalar ile pisleşmeye istekli olmak gerekir. Bölgeyi ilk elden tanımanın yerini hiçbir şey tutamaz.