SQL Server'ın veri işlemeden temizlemeye ve munging'e kadar yaptığımız her şeyin belkemiği olduğu bir ofiste çalışıyorum. İş arkadaşım, gelen verileri yöntemsel olarak işlemek için karmaşık işlevler ve saklı yordamlar yazma konusunda uzmanlaşmıştır, böylece standartlaştırılabilir ve raporlarda, görselleştirmelerde ve analiz projelerinde çalıştırılabilir. Buraya başlamadan önce, en temel sorguları yazmanın yanı sıra SQL ile çok az deneyimim vardı. Analiz hazırlama çalışmalarının büyük çoğunluğu R'de yapıldı. Patronum, daha verimli ve R kullanarak çok daha az kod satırı ile gerçekleştirilemeyen çok az ödev olmasına rağmen SQL becerilerimi geliştirdiğimde ısrar ediyor. dplyr, data.table ve tidyr gibi paketler (birkaç isim). Sorum şu - bu mantıklı mı?
Birkaç hafta önce, kendimi belirli ölçütleri karşılayan bir tablodaki her satır için bir sütun adı listesi alma ve bunları bir dizeler vektörüne birleştirme göreviyle karşı karşıya buldum. Sıkı bir son teslim tarihi vardı ve o zaman, bir miktar tıkanma yaşıyordum ve başımı problemin etrafına dolayamadım. Patronumdan meslektaşımdan sorunu çözmek için bir TSQL senaryosu yazmasını istedi. Üzerinde çalışırken, R'de oldukça basit bir işlev yazıp veri çerçevesinin üzerine uygulamanın bir yolunu buldum. Meslektaşım senaryosuyla yaklaşık iki saat sonra geri döndü. Döngüler için iç içe iki içeren en az 75 satırdı. Çalışmanın ne zaman bittiğini bildirmesini istedim ve birkaç saat süreceğini söyledi. Bu arada R betiğim yaklaşık 30 saniyede ~ 45.000 kayıt arasında döngü yapabildi.
R'nin verileri temizlemek ve munging için çok daha iyi bir seçim olduğunu varsaymak doğru mudur? Belki de ofisimdeki SQL geliştiricisi sadece beceriksizdir? Hem R hem de SQL (veya bu konuda Python ve SQL) ile çalışan herkesin bu konuda herhangi bir düşüncesi olup olmadığını merak ediyorum.