Veri Bilimcisi olmak için Hadoop'u öğrenmem gerekiyor mu?

38

Burada amaçlayan bir veri bilimcisi. Hadoop hakkında hiçbir şey bilmiyorum ama Veri Bilimi ve Büyük Veri hakkında okuduğum için Hadoop hakkında çok fazla konuşma görüyorum. Hadoop'u Veri Bilimcisi olarak öğrenmek kesinlikle gerekli midir?

bigdata apache-hadoop

— Pensu
kaynak

1

Bu soru sınıfı meta üzerinde tartışılmaktadır. Bu meta yayını

— asheeshr

Kesinlikle gerekli değil. Bu araçlardan sadece biri. Gerekli olan istatistik ve doğrusal cebir anlayışıdır. Takım seçimi ikincildir.

— Victor,

Bu ücretsiz e-kitaba bak, sorunuzu cevaplamaya çalışıyor. oreilly.com/data/free/files/analyzing-the-analyzers.pdf

— Espanta

IBM Watson Analytics’te de benzer bir sorum var, Google’ın Bigquery ve diğer bulut tabanlı analizleri bu teknolojiler Hadoop ve kıvılcımdan daha iyi. büyük veri analizi yapmak

47

Farklı insanlar farklı şeyler için farklı araçlar kullanırlar. Veri Bilimi gibi terimler bir nedenden dolayı geneldir. Bir veri bilimcisi, hadoop gibi belirli bir aracı öğrenmek zorunda kalmadan tüm kariyerini harcayabilir. Hadoop yaygın olarak kullanılır, ancak büyük ölçekli verileri bile yönetebilen ve yönetebilen tek platform değildir.

Bir veri bilimcisinin MapReduce, dağıtık sistemler, dağıtılmış dosya sistemleri ve benzerleri gibi kavramlara aşina olması gerektiğini söyleyebilirim, ancak böyle şeyleri bilmediği için birini yargılamam.

Bu büyük bir alan. Bir bilgi denizi var ve çoğu insan tek bir damlada öğrenme ve uzman olma yeteneğine sahip. Bilim adamı olmanın anahtarı, öğrenme arzusu ve bilmediğiniz şeyi bilme motivasyonudur.

Örnek olarak: Doğru kişiye, on yıl boyunca belirli bir sınıfta sınıf performansı hakkında bilgi içeren yüz yapılandırılmış CSV dosyasını teslim edebilirim. Bir veri bilimcisi, bir yıl boyunca, hesaplamayı birden fazla makineye yaymaya gerek kalmadan verilerden arındırılmış bilgiler alabilir. Makine öğrenmesi algoritmalarını uygulayabilir, görselleştirmeleri kullanarak analiz edebilir, bölge hakkındaki dış verilerle, etnik makyajı, zaman içinde çevrede yapılan değişiklikleri, politik bilgileri, hava örneklerini vb. Birleştirebilirsiniz. Bunların hepsi benim görüşüme göre "veri bilimi" olur. . Öğrendiğiniz her şeyi yalnızca bir sınıftan ziyade tüm bir ülkeyi kapsayan veriye test etmek ve uygulamak hadoop gibi bir şey alabilir, ancak bu son adımın birisini veri bilimcisi yapması gerekmez.

— Steve Kallestad
kaynak

10

Eski bir Hadoop mühendisi olarak, gerekli değildir, ancak yardımcı olur. Hadoop yalnızca bir sistemdir - Java'ya dayalı en yaygın sistem ve zamanında sonuç almak için belirli bir "Harita / Azaltma" tekniği uygulayan bir ürün ekosistemidir. Hadoop Google’da kullanılmıyor, ancak sizi büyük veri analiziyle kullanıyorlar. Google, C ++ 'da geliştirilen kendi sistemlerini kullanır. Aslında, Hadoop Google'ın Harita / Reduce ve BigTable (Hadoop'taki HBase) beyaz kağıtlarını yayınlaması sonucunda yaratılmıştır.

Veri bilim adamları, hadoop mühendisleriyle bağlantı kuracaklar, ancak daha küçük yerlerde her iki şapkayı takmanız gerekebilir. Kesinlikle bir veri bilimcisiyseniz, o zaman analitikleriniz için ne kullanıyorsanız kullanın, R, Excel, Tableau, vb. Sadece küçük bir alt kümede çalışacak, hadoop içeren tüm veri setine karşı çalışacak şekilde dönüştürülmeye ihtiyaç duyacaksınız.

— user9170
kaynak

8

Öncelikle "Hadoop'u öğrenmek" ile ne demek istediğinizi açıkça belirtmelisiniz. MapReduce'da programlamayı öğrenmek gibi Hadoop'u kullanmak istiyorsanız, o zaman büyük olasılıkla bu iyi bir fikirdir. Fakat zaman geçtikçe temel bilgiler (veritabanı, makine öğrenmesi, istatistikler) daha büyük bir rol oynayabilir.

— lgylym
kaynak

Görünüşe göre insanların çoğu analitik için Hadoop kullanıyor. Benim düşündüğüm şey böyle bir şeye ihtiyacım var mı yoksa veritabanı hakkında bilgi, ML, istatistik yeterli mi?

— Pensu

5

Evet, probleminizi veri paralel problemi olarak değerlendiren bir platform öğrenmelisiniz. Hadoop birdir. Basit ihtiyaçlarınız için (sayma, toplama, filtreleme vb. Gibi tasarım desenleri) Hadoop'a ihtiyacınız var ve daha karmaşık Makine Öğrenmesi işleri için bazı Bayesian, SVM gibi bir sorunla karşılaşmak için Hadoop'a (Şimdi Apache Spark) ihtiyacınız var. veri paralel bir yaklaşım.

Bu yüzden Hadoop toplu işlem ihtiyaçlarınız için öğrenmek ve gerçekten önemli bir platformdur. Sadece Hadoop'u değil, Spark'ı da bilmeniz gerekir (Mahout, Spark'ı kullanan algoritmaları çalıştırır) ve Twitter Storm (gerçek zamanlı analitik ihtiyaçlarınız için). Bu liste devam edecek ve gelişecektir, eğer yapı taşları (Dağıtık Hesaplama, Veri-Paralel Sorunlar vb.) Konusunda iyiyseniz ve böyle bir platformun (Hadoop'un) nasıl çalıştığını biliyorsanız, diğerleri üzerinde oldukça hızlı bir şekilde çalışacağınızı öğrenin.

— Yaver
kaynak

4

Bu, kesinlikle birlikte çalıştığınız çevreye / şirkete bağlıdır. Gözlerimde şu anda "büyük bir veri" yutturmaca var ve birçok şirket hadoop tabanlı çözümlerle alana girmeye çalışıyor - hadoop'u aynı zamanda bir sözcük olarak yapan şey, her zaman en iyi çözüm değil.

Aklımda, iyi bir Veri Bilimcisi doğru soruları sorabilmeli ve gerçekte neye ihtiyaç duyduğuna kadar tekrar sormaya devam etmelidir. Tabii ki iyi bir DataScientist'ten daha çok sorunun nasıl ele alınacağını bilmek (veya en azından bilen birini tanımak) gerekir. Aksi takdirde paydaşınız sinirlenebilir :-)

Bu yüzden Hadoop'u öğrenmek için kesinlikle gerekli olmadığını söyleyebilirim.

— PlagTag
kaynak

2

Veri bilimcisi olarak çalışmak istiyorsanız Hadoop'u öğrenmelisiniz, ancak Hadoop'a başlamadan önce ETL veya Büyük Veri hakkında bir şeyler okumalısınız ... bu kitap iyi bir başlangıç noktası olabilir: http://www.amazon.com / Büyük-Veri-İlkeler-uygulamalar-ölçeklenebilir / dp / 1617290343

Umarım yardımcı olur ve iyi şanslar!

— jsanchez
kaynak

2

Tek bir makinedeki verilere veri bilimi tekniklerini uygulayabilirsiniz, böylece OP'nin ifade ettiği gibi sorunun cevabı hayırdır.

— Ben Onwuka
kaynak

1

Veri Bilimi, çeşitli beceriler gerektiren bir alandır. Hadoop'u bilmek onlardan biri. Veri Bilim İnsanının temel görevleri şunlardır:

Farklı kaynaklardan veri toplama.
Verilerin temizlenmesi ve ön işlenmesi.
Verilerin istatistiksel özelliklerinin incelenmesi.
Verilerden öngörü ve tahmin elde etmek için Makine Öğrenimi tekniklerini kullanmak.
Sonuçları karar vericilere anlaşılması kolay bir şekilde iletmek.

Yukarıdaki noktalardan Hadoop bilgisi 1,2 ve 3 numaralı noktalar için kullanışlıdır, ancak aynı zamanda veri bilimi alanında çalışmak için güçlü bir matematiksel / istatistiksel geçmişe ve Hesaplamalı tekniklerin de güçlü bir bilgisine sahip olmanız gerekir. Ayrıca Hadoop, Veri Biliminde kullanılan tek çerçeve değildir. Büyük Veri ekosistemi, her biri belirli bir kullanım durumuna özgü bir dizi çerçeveye sahiptir. Bu makale, Veri Biliminde kullanılabilecek ana Büyük Veri çerçevelerine ilişkin tanıtım materyali sunmaktadır:

http://www.codophile.com/big-data-frameworks-every-programmer-should-know/

— Rajeev Singh
kaynak

1

Eğilerek Hadoop çerçevesinin (zor yoldan) Veri Bilimcisi olmanın bir gereği olmadığını düşünüyorum. Tüm büyük veri platformları hakkında genel bilgi esastır. Kavramı bilmeyi önereceğim ve Hadoop’un yalnızca bir kısmının ihtiyacı MapReduce’a aittir.

Bir Veri Bilimcisi küme oluşturmaz, yönetir ... sadece veri ile "sihir" yapar ve nereden geldiği umrunda değil. "Hadoop" terimi sadece yukarıdaki ana modüllere değil, aynı zamanda "ekosisteme" veya Apache Pig, Apache Hive gibi Hadoop'un üstüne ya da yanına kurulabilecek ek yazılım paketlerinin toplanmasına da atıfta bulunmuştur. Apache HBase, Apache Spark ve diğerleri.

En önemlisi, Programlama dili, matematik ve verilerle çalışmak için istatistiktir (verilerle bağlantı kurmanın ve ilerlemenin bir yolunu bulmanız gerekir). Keşke beni kavramıma yöneltecek ve haftaları öğrenme çerçevesine harcayacak ve sıfırdan düğüm ve kümelerden inşa edemeseydim, çünkü bu kısım Data Engineer veya Data Scientist değil Yönetici rolü. Ayrıca bir şey: hepsi değişiyor ve değişiyor ama matematik, programlama, istatistikler hala şartlar.

hdfs'den verilere erişilmesi çok önemlidir, örneğin PROC Hadoop, Hive, SparkContext veya başka bir sürücü veya boru (hadoop'u bir veri veya depolama noktası olarak kabul edin :)

zaten kaynak tahsisi ve yönetimi, performansı ile ilgilenen araçlar veya çerçeveler mevcut.

— n1tk
kaynak