Başka bir kriter göz önüne alındığında, bazı durumlarda Python'u kullanmanın Büyük Veri için R'den çok daha üstün olabileceğini düşünüyorum. R'nin veri bilimi eğitim materyallerinde yaygın olarak kullanıldığını ve bunun için mevcut iyi veri analiz kütüphanelerinin kullanıldığını biliyorum, ancak bazen bu sadece takıma bağlı.
Tecrübelerime göre, zaten programlamaya aşina olan insanlar için Python kullanmak, programlama dili açısından Python'a göre iyi tasarlanmamış ve güçlü olmayan R gibi bir dile kıyasla çok daha fazla esneklik ve üretkenlik artışı sağlar. Kanıt olarak, üniversitemdeki bir veri madenciliği kursunda, diğerleri R'nin zengin veri analiz kitaplığına erişebilse de en iyi final projesi Python'da yazılmıştır. Diğer bir deyişle, Python için genel verimlilik (öğrenme materyalleri, dokümantasyon vb. Dikkate alındığında), Python için özel amaçlı veri analizi kitaplıklarının bulunmamasına rağmen, R'den daha iyi olabilir. Ayrıca, Python'un veri bilimindeki hızlı temposunu açıklayan bazı güzel makaleler var: Python, Python'daki R ve Zengin Bilimsel Veri Yapılarını Yerine Getiriyor bu yakında R için kullanılabilir kütüphanelerin boşluğunu doldurabilir.
R kullanmamanın bir diğer önemli nedeni ise gerçek dünyadaki Büyük Veri problemleriyle çalışırken, sadece akademik sorunların aksine, veri ayrıştırma, temizleme, görselleştirme, web hurdaya alma ve diğer pek çok araç gibi başka araç ve tekniklere ihtiyaç duyulmasıdır. Genel amaçlı bir programlama dili kullanarak çok daha kolaydır. Bu nedenle, birçok Hadoop kursunda (Udacity'nin çevrimiçi kursu dahil) kullanılan varsayılan dilin Python olması neden olabilir .
Düzenle:
Son zamanlarda DARPA, Python'un Big Data'daki geleceğinin bir işareti olan büyük veri işleri için veri işleme ve görselleştirme yeteneklerini finanse etmek için 3 milyon dolar yatırım yaptı. ( detaylar )