Halen perakende bir şirkette veri bilimcisi olarak çalışıyorum (DS olarak ilk işim, bu yüzden bu soru deneyim eksikliğimin bir sonucu olabilir). Uygulanırsa büyük olumlu etkileri olabilecek çok önemli veri bilimi projelerinin büyük bir birikimi var. Fakat.
Veri boru hatları şirket içinde mevcut değil, standart prosedür bana biraz bilgiye ihtiyacım olduğunda gigabayt TXT dosyalarını vermeleri . Bu dosyaları, arkne notasyonu ve yapısında saklanan işlemlerin tablo günlükleri olarak düşünün. Tek bir veri kaynağında hiçbir bilgi parçası bulunmuyor ve "güvenlik nedeniyle" ERP veritabanlarına erişim izni veremiyorlar.
En basit proje için ilk veri analizi acımasız, dayanılmaz veri bozmayı gerektirir. Bir projenin harcanan zamanının% 80'inden fazlası, geçerli veri kümeleri oluşturmak için bu dosyaları ayrıştırmaya ve veri kaynaklarını geçmeye çalışıyorum . Bu, sadece eksik verilerin ele alınması ya da ön işleme tabi tutulmasıyla ilgili bir sorun değildir , ilk başta ele alınabilecek veri oluşturmak için gereken çalışmadır ( dba veya veri mühendisliği tarafından çözülebilir, veri bilimi değil mi? ).
1) Çalışmanın çoğu, veri bilimi ile ilgili değil gibi görünüyor. Bu doğru mu?
2) Bunun yüksek düzeyde veri mühendisliği departmanına sahip veri odaklı bir şirket olmadığını biliyorum, ancak veri bilimi projelerinin sürdürülebilir bir geleceği için inşa etmek için asgari veri erişilebilirliği seviyelerinin gerekli olduğu kanısındayım . Yanlış mıyım?
3) Bu tür kurulum ciddi veri bilimi ihtiyacı olan bir şirket için ortak mıdır?