Hadoop / map-reduce kullanarak hangi makine öğrenme algoritmaları ölçeklenebilir

9

Ölçeklenebilir makine öğrenme algoritmaları bu günlerde vızıltı gibi görünüyor. Her şirket büyük veriden kısa bir şey yapmıyor . Map-Reduce gibi paralel mimariler kullanılarak hangi makine öğrenme algoritmalarının ölçeklendirilebileceğini ve hangi algoritmaların yapılamayacağını tartışan bir ders kitabı var mı? Veya ilgili bazı makaleler?

machine-learning large-data

— nik
kaynak

5

Mahout in Action, Mahout'da okumak için iyi bir kitaptır ( http://manning.com/owen/ ). Tabii ki web sitesinde kapsanan algoritmalara genel bir bakış vardır ( http://mahout.apache.org/ ).

— Budhapest
kaynak

4

Vowpal Wabbit, çevrimiçi degrade iniş öğrenmeye odaklanan çok hızlı bir makine öğrenme programı Hadoop ile kullanılabilir: http://arxiv.org/abs/1110.4198 Yine de, bu şekilde hiç kullanmadım. Doğru anlarsam, güvenilirlik ve Vowpal Wabbit işlemlerine veri sağlamak için sadece Hadoop'u kullanır. İletişimin çoğunu yapmak için MPI AllReduce gibi bir şey kullanır.

— ektrules
kaynak

4

Jimmy Lin ve Chris Dyer'in MapReduce ile Veri Yoğun Metin Madenciliği kitabındaki ilk bölümde belirttiği gibi, büyük veri ölçeklerinde, farklı algoritmaların performansı, performans farklılıklarının neredeyse ortadan kalkacağı şekilde birleşmektedir. Bu, yeterince büyük bir veri kümesi verildiğinde, kullanmak istediğiniz algoritmanın hesaplamalı olarak daha ucuz olduğu anlamına gelir. Sadece daha küçük veri ölçeklerinde algoritmalar arasındaki performans farkları önemlidir.

Bununla birlikte, kitapları (yukarıda bağlantılı) ve Anand Rajaraman, Jure Leskovec ve Jeffrey D. Ullman'ın Devasa Veri Kümeleri Madenciliği , özellikle doğrudan MapReduce ile ilgili olarak, kontrol etmek isteyeceğiniz iki kitaptır. veri madenciliği amacıyla.

— Richard D
kaynak

1

"..büyük ölçekte, farklı algoritmaların performansı yakınsama ..." Bunu bilmiyordum. Bu faydalı fikir için teşekkürler. Ayrıca, "Devasa Veri Kümeleri Madenciliği" ni tökezledim ve çok kullanışlı buldum. Diğer kitaba da bakacağım.

— Nik

2

Bir Hadoop kümesine erişiminiz varsa, Spark'a bir göz atacağım. https://spark.apache.org/

— cüce baykuş
kaynak

MLlib, Spark için Scala, Java, Python ve R'deki örneklerle bir dizi dağıtılmış makine öğrenme algoritması içerir: spark.apache.org/docs/latest/ml-guide.html

— Vadim Smolyakov

1

Kimse şu makaleden bahsetmedi - http://papers.nips.cc/paper/3150-map-reduce-for-machine-learning-on-multicore.pdf (Andrew Ng yazarlardan biridir)

Kağıdın kendisi çok çekirdekli makineler içindir, ancak esas olarak makine öğrenme problemlerini yeniden haritalama ile ilgilidir, böylece harita küçültme düzenine sığarlar ve bir bilgisayar kümesi için kullanılabilirler. (bunun genel olarak neden iyi bir fikir olmadığını görmek için bu makaleyi okumak isteyebilirsiniz - http://arxiv.org/pdf/1006.4990v1.pdf . İyi bir genel bakışa sahiptir).

— user48654
kaynak

Ayrıca Mahout, bahsettiğim Andrew Ng belgesini uygulama girişimiydi.

— user48654

0

Makine Öğrenmesini Ölçeklendirme : paralel ve dağıtılmış yaklaşımlar John Langford ve ark. ark. denetlenen ve denetlenmeyen algoritmaların paralel uygulamalarını tartışır. MapReduce, karar ağacı toplulukları, paralel K-araçları, paralel SVM, inanç yayılımı ve AD-LDA hakkında konuşuyor.

https://www.amazon.com/Scaling-Machine-Learning-Distributed-Approaches/dp/0521192242

— Vadim Smolyakov
kaynak