Hadoop / map-reduce kullanarak hangi makine öğrenme algoritmaları ölçeklenebilir


9

Ölçeklenebilir makine öğrenme algoritmaları bu günlerde vızıltı gibi görünüyor. Her şirket büyük veriden kısa bir şey yapmıyor . Map-Reduce gibi paralel mimariler kullanılarak hangi makine öğrenme algoritmalarının ölçeklendirilebileceğini ve hangi algoritmaların yapılamayacağını tartışan bir ders kitabı var mı? Veya ilgili bazı makaleler?

Yanıtlar:



4

Vowpal Wabbit, çevrimiçi degrade iniş öğrenmeye odaklanan çok hızlı bir makine öğrenme programı Hadoop ile kullanılabilir: http://arxiv.org/abs/1110.4198 Yine de, bu şekilde hiç kullanmadım. Doğru anlarsam, güvenilirlik ve Vowpal Wabbit işlemlerine veri sağlamak için sadece Hadoop'u kullanır. İletişimin çoğunu yapmak için MPI AllReduce gibi bir şey kullanır.


4

Jimmy Lin ve Chris Dyer'in MapReduce ile Veri Yoğun Metin Madenciliği kitabındaki ilk bölümde belirttiği gibi, büyük veri ölçeklerinde, farklı algoritmaların performansı, performans farklılıklarının neredeyse ortadan kalkacağı şekilde birleşmektedir. Bu, yeterince büyük bir veri kümesi verildiğinde, kullanmak istediğiniz algoritmanın hesaplamalı olarak daha ucuz olduğu anlamına gelir. Sadece daha küçük veri ölçeklerinde algoritmalar arasındaki performans farkları önemlidir.

Bununla birlikte, kitapları (yukarıda bağlantılı) ve Anand Rajaraman, Jure Leskovec ve Jeffrey D. Ullman'ın Devasa Veri Kümeleri Madenciliği , özellikle doğrudan MapReduce ile ilgili olarak, kontrol etmek isteyeceğiniz iki kitaptır. veri madenciliği amacıyla.


1
"..büyük ölçekte, farklı algoritmaların performansı yakınsama ..." Bunu bilmiyordum. Bu faydalı fikir için teşekkürler. Ayrıca, "Devasa Veri Kümeleri Madenciliği" ni tökezledim ve çok kullanışlı buldum. Diğer kitaba da bakacağım.
Nik


1

Kimse şu makaleden bahsetmedi - http://papers.nips.cc/paper/3150-map-reduce-for-machine-learning-on-multicore.pdf (Andrew Ng yazarlardan biridir)

Kağıdın kendisi çok çekirdekli makineler içindir, ancak esas olarak makine öğrenme problemlerini yeniden haritalama ile ilgilidir, böylece harita küçültme düzenine sığarlar ve bir bilgisayar kümesi için kullanılabilirler. (bunun genel olarak neden iyi bir fikir olmadığını görmek için bu makaleyi okumak isteyebilirsiniz - http://arxiv.org/pdf/1006.4990v1.pdf . İyi bir genel bakışa sahiptir).


Ayrıca Mahout, bahsettiğim Andrew Ng belgesini uygulama girişimiydi.
user48654

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.