Hadoop nedir ve ne için kullanılır? [kapalı]


28

Bir süredir ServerFault'u okumaktan zevk alıyorum ve Hadoop'ta epeyce konu ile karşılaştım. Küresel bir bakış açısıyla ne yaptığını bulma konusunda biraz sorun yaşadım.

Yani benim sorum oldukça basit: Hadoop nedir? Bu ne işe yarıyor ? Ne için kullanılır ? Neden kıç tekmeliyor?

Düzenleme: Herhangi biri Hadoop'un kullanıldığı kullanım durumlarının gösterilerine / açıklamalarına sahip olursa, bu harika olurdu.


Facebook, Hadoop'u yoğun şekilde kullanıyor (gerçekten de Hadoop'un üstündeki bir katman olan Hive). Facebook Mühendislik sayfasında iyi bir yazı var. facebook.com/note.php?note_id=89508453919
John Meagher

Hadoop, veri kümelerini düğümler / sunucular arasında dağıtarak ve işlemi paralel olarak çalıştırarak büyük miktarda veriyi ( Büyük veri ) işlemeyi basitleştiren bir çerçevedir . Bu işlem / algoritma MapReduce olarak bilinir.
Mr_Green

Yanıtlar:


26

Dan Düz at ağzına :

Hadoop, emtia donanımından yapılmış büyük kümelerdeki uygulamaları çalıştırmak için bir çerçevedir. Hadoop çerçevesi şeffaf bir şekilde uygulamalara hem güvenilirlik hem de veri hareketi sağlar. Hadoop, uygulamanın her biri kümedeki herhangi bir düğümde yürütülebilen veya yeniden ifade edilebilecek birçok küçük iş parçasına bölündüğü, Harita / Reduce adlı bir hesaplama paradigması uygular. Ek olarak, küme genelinde çok yüksek toplam bant genişliği sağlayan, bilgi işlem düğümlerinde veri depolayan dağıtılmış bir dosya sistemi (HDFS) sağlar. Hem Harita / Küçültme hem de dağıtılmış dosya sistemi, düğüm arızalarının çerçeve tarafından otomatik olarak ele alınmasını sağlayacak şekilde tasarlanmıştır.

Harita / Azaltma, bir görevde küçük parçalara bölündüğü ve işlem için çok sayıda düğüme dağıtıldığı (harita) Google tarafından popüler hale getirilen bir programlama paradigmasıdır (sonuçlar) daha sonra son cevaba göre özetlenir (azaltın) ). Google ve Yahoo bunu, diğer şeylerin yanı sıra arama motoru teknolojileri için kullanıyorlar.

Hadoop bu tür bir işleme planını uygulamak için genel bir çerçevedir. Neden kıç tekmeliyorsa, çoğunlukla hata toleransı gibi zarif özellikler sunar ve işlem yapmak için hemen hemen her türlü donanımı bir araya getirmenize izin verir. Ayrıca, probleminize paradigmaya uyması koşuluyla, son derece iyi ölçeklenir.

Web sitesinde bununla ilgili her şeyi okuyabilirsiniz .

Bazı örnekler gelince, Paul birkaç verdi, ama işte o kadar web merkezli olmayan yapabileceğiniz birkaç şey:

  • Bir 3D filmi oluşturma. "Harita" adımı, her karenin geometrisini farklı bir düğüme dağıtır, düğümler onu oluşturur ve oluşturulan kareler "azaltma" adımında yeniden birleştirilir.
  • Bir sistemdeki enerjinin moleküler modelde hesaplanması. Bir sistem yörüngesinin her karesi "harita" adımındaki bir düğüme dağıtılır. Düğümler her karenin enerjisini hesaplar
    ve ardından sonuçlar "azaltma" adımında özetlenir.

Temel olarak, model tamamen bağımsız olan benzer kesikli hesaplamalara bölünebilecek ve nihai bir sonuç elde etmek için yeniden birleştirilebilecek bir problem için çok iyi çalışır.


Cevabınız için teşekkür ederim. Yani temelde uygulamalar (PHP? Java?) Alıyor ve onları yıkıyor ve bir sürü düğüm arasında işi gönderiyor mu? HDFS'ye gelince, bir sürü düğüm dışında OCFS'ye benziyor.
Antoine Benkemoun

Bu aswell ile ilgileniyorum. Gerçekte daha spesifik, gerçek kelime örnekleri görmek isterim.
Karolis T.

Ben de öyle arıyordum :-)
Antoine Benkemoun

10

Cloudera'nın Harita Azaltma ve Hadoop'un arkasındaki ilkeleri açıklayan harika videoları var.

http://www.cloudera.com/hadoop-training-basic

MapReduce'un ardındaki temel fikirlerden biri, büyük veri kümeleri için disklerinize bağlı olacağınızdır, bu nedenle Hadoop HDFS'de size paralel işleme sağlayan birçok düğüm arasında şeyleri bölme imkanı sunar.

Sistem yöneticilerinin ilgisini çeken Hadoop'un bazı kullanımları genellikle büyük günlük dosyası kümelerinin işlenmesiyle ilgilidir - Yalnızca bir bağlantı gönderebilirim, ancak bunlar dahil, google bunları bulmak gerekir:

  1. Rackspace posta günlüğü sorgusu
  2. Domuz ile Apache günlük analizi - bkz. Cloudera blogu
  3. Yahoo! spam ile mücadele

Güzel görünüyor Ben bir göz
atacağım

1

İlk başta hadoop OLAP ortamında büyük miktarda veri kümesi için geliştirilmiştir.

Hdobun hadoop'un üzerine yerleştirilmesiyle, kamışı da OLAP İşleme için kullanılabilir. Hadoop harita azaltma, hdfs, hbase, pig gibi tüm alt bileşenlerin bulunduğu bir çerçevedir.

Biri neden Hadoop'un tanıtımı bölümünde hadoop temelli bir makale .

Hadoop'ta veri depolama, dosya biçiminde, tablolarda değil, sütunlarda.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.