Örneğin altyapı yığınları / iş akışları / boru hatları aranıyor


14

Tüm "büyük veri" bileşenlerinin gerçek dünya kullanım durumunda nasıl oynandığını anlamaya çalışıyorum, örneğin hadoop, monogodb / nosql, fırtına, kafka, ... Bunun için kullanılan çok çeşitli araçlar olduğunu biliyorum farklı türlerde, ancak uygulamalardaki etkileşimleri hakkında daha fazla bilgi edinmek istiyorum, örneğin bir uygulama için düşünme makinesi öğrenmesi, webapp, çevrimiçi mağaza.

Ziyaretçiler / oturum, işlem verileri vb. Var ve bunu saklamak; ama anında önerilerde bulunmak istersem, bunun için bazı büyük günlük veritabanında yavaş harita / işleri azaltamam. Altyapı unsurları hakkında nereden daha fazla bilgi edinebilirim? Sanırım aletlerin çoğunu kendi başlarına kullanabiliyorum, ancak bunları birbirine bağlamak kendi başına bir sanat gibi görünüyor.

Herkese açık örnekler / kullanım örnekleri vb. Var mı? Bireysel boru hatlarının güçlü bir şekilde kullanım durumuna ve kullanıcıya bağlı olduğunu anlıyorum, ancak sadece örnekler muhtemelen benim için çok yararlı olacaktır.


Bu konuda herhangi bir araştırma yaptınız mı? Farklı mimarileri açıklayan birçok youtube videosu ve slayt paylaşım sunumu var
Stanpol

1
Hey Stanpol, cevabınız için teşekkürler - Bazı ilk aramalar yaptım ve AWS ve cloudera şeylerinin yanı sıra gerçekten bir şey bulamadım - belki bana umut verici bir arama terimi verebilirseniz, oradan almaktan memnuniyet duyarım.
chrshmmmr

Yanıtlar:


14

Makine öğreniminin üretim uygulamalarına entegre edilmesinin çeşitli yollarını anlamak için, altyapılarını tanımlayan şirketlerden açık kaynaklı projelere ve makalelere / blog yayınlarına bakmak yararlı olduğunu düşünüyorum.

Bu sistemlerin ortak teması model eğitiminin model uygulamasından ayrılmasıdır. Üretim sistemlerinde, model uygulamasının 100 ms civarında hızlı olması gerekir, ancak takılan model parametrelerinin (veya eşdeğerinin) ne sıklıkta güncellenmesi gerektiği konusunda daha fazla özgürlük vardır.

İnsanlar model eğitimi ve dağıtımı için çok çeşitli çözümler kullanır:


7

Karmaşık bir analitik boru hattı kurmanın en ayrıntılı ve net açıklamalarından biri Twitch'teki kişilerden .
Verilerinin toplanması, taşınması, koordinasyonu, işlenmesi, depolanması ve sorgulanması için mimari seçeneklerin her birinin ayrıntılı motivasyonlarını verirler.
Zorlayıcı okuma! Burada ve burada bulun .


Bu gerçekten harika, tam olarak aradığım şey! Çok teşekkürler :)
chrshmmmr 17:14

@chrshmmmr Rica ederim. Bu yardımcı olduysa onaylamayı / onaylamayı işaretlemeyi unutmayın!
tchakravarty

3
Bu bağlantılar gerçekten çok yararlı görünüyor, ama sonra yine bağlantılar. Bu nedenle, örneğin bu bağlantıdan diyagram eklemek ve hızlı bir açıklama ile göndermek için iki veya üç dakika sürebilirseniz iyi olur . "Örneğin, bu bir ... sisteminin iş akışı. <img>. Daha fazla bilgi <link> 'de bulunabilir."
Rubens

1
@Rubens Biraz düzenleme önereceğim. fgnu: Bunu yapacak, cevapları gerçekten yükseltmek için biraz daha fazla itibar gerekiyor, ama kesinlikle katkınızı onurlandıracağım :)
chrshmmmr

@ Rubens Bu, bağlantıdaki bilgileri yeniden oluşturmaktan başka bir şey değildir. Zaten orada verilen açıklamaya eklediğim bir şey olsaydı yapardım.
tchakravarty


1

R ile Pratik Veri Bilimi Bölüm 1 ( http://www.manning.com/zumel/ ), takım rolleri ve bunların belirli görevlerle nasıl ilişkili olduğu dahil olmak üzere veri bilimi sürecinin büyük bir dökümüne sahiptir. Kitap, bu ya da belirli bir görevin hangi aşamada / personel tarafından yapılacağına atıfta bulunarak bölümde ortaya konan modelleri takip eder.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.