Amazon RedShift ~ 1XTB verileri için Hadoop'un yerini alıyor mu?

12

Hadoop ve eko sistemini çevreleyen bol miktarda hype var. Bununla birlikte, terabayt aralığında birçok veri setinin bulunduğu uygulamada, bir Hadoop kümesi oluşturmak için zaman ve çaba harcamak yerine, büyük veri setlerini sorgulamak için Amazon RedShift kullanmak daha makul değil midir?

Ayrıca Amazon Redshift, kurulum karmaşıklığı, maliyeti ve performansı açısından Hadoop ile nasıl kıyaslanıyor?

apache-hadoop map-reduce aws

— trienism
kaynak

Yani Hadoop mu demek istediniz: Impala gibi Redshift'e özel bir muadil?

— Sean Owen

Sorumuzda @SeanOwen, Apache Hadoop'tan bahsediyordum. Her ne kadar Impala karşılaştırmasını yapmak ilginç olurdu.

— trienizm

12

tl; dr: Pek çok açıdan önemli ölçüde farklılar ve Redshift'in Hadoop'un yerini alacağını düşünemiyorum.

-Fonksiyon
Redshift üzerinde SQL dışında bir şey çalıştıramazsınız. Belki de en önemlisi, Redshift üzerinde herhangi bir özel işlev çalıştıramazsınız. Hadoop'ta birçok dili kullanarak (Java, Python, Ruby .. adını verirsiniz). Örneğin, Hadoop'taki NLP kolaydır, Redshift'de az ya da çok imkansızdır. Yani Hadoop'ta yapabileceğiniz birçok şey var ama Redshift'te değil. Bu muhtemelen en önemli farktır.

-Performans Profili
Redshift üzerinde sorgu yürütme çoğu durumda Hadoop'tan çok daha verimlidir. Ancak, bu verimlilik veriler Redshift'e yüklendiğinde yapılan indekslemeden gelir ( indexingburada çok gevşek terimini kullanıyorum ). Bu nedenle, verilerinizi bir kez yükleyip birden çok sorgu yürütmeniz harika olur, ancak örneğin yalnızca bir sorgu yürütmek istiyorsanız, genel olarak performansınızı kaybedebilirsiniz.

-Maliyeti Profil
Hangi çözümün maliyetle kazandığı, duruma (performans gibi) bağlıdır, ancak Hadoop'tan (daha spesifik olarak Amazon'un Elastik Harita Azaltması) daha ucuz hale getirmek için muhtemelen çok fazla sorguya ihtiyacınız vardır. Örneğin, OLAP yapıyorsanız, Redshift'in daha ucuz olması muhtemeldir. Günlük toplu ETL yaparsanız, Hadoop'un daha ucuza çıkması daha olasıdır.

Söyledikten sonra, Hive to Redshift'te yapılan ETL bölümümüzün yerini aldık ve oldukça harika bir deneyim oldu; çoğunlukla kalkınma kolaylığı için. Redshift'in Sorgu Motoru, PostgreSQL tabanlıdır ve Hive'ınkine kıyasla çok olgunlaşmıştır. ACID özellikleri bununla ilgili akıl yürütmeyi kolaylaştırır ve daha hızlı yanıt süresi daha fazla test yapılmasına izin verir. Sahip olmak harika bir araç, ancak Hadoop'un yerini almayacak.

DÜZENLEME : Kurulum karmaşıklığına gelince, AWS'nin EMR'sini kullanırsanız Hadoop ile daha kolay olduğunu söyleyebilirim. Aletleri o kadar olgun ki, Hadoop işinizi çalıştırmanız gülünç derecede kolay. Redshift'in operasyonunu çevreleyen araç ve mekanizmalar henüz bu kadar olgun değil. Örneğin, Redshift damlama yüklemesini kaldıramaz ve bu nedenle bunu toplu yüke dönüştüren bir şey bulmanız gerekir, bu da ETL'nize biraz karmaşıklık katabilir.

— Enno Shioji
kaynak

2

easier to develop because of Redshift's maturitybununla çelişiyor Redshift isn't that mature yet, kararınız nedir?

— M. Mimpen

@ M.Mimpen: Daha spesifik olmak için cevabı

— düzenledi

5

Amazon Redshift için geçerli boyut sınırı 128 düğüm veya 2 PB sıkıştırılmış veri. Kilometre sıkıştırma için değişiklik gösterse de 6PB sıkıştırılmamış olabilir. Daha fazlasına ihtiyacınız varsa bize her zaman bildirebilirsiniz. anurag @ aws (Amazon Redshift ve Amazon EMR çalıştırıyorum)

— Anurag Gupta
kaynak

3

Şahsen, bir hadoop kümesi kurmanın o kadar zor olduğunu düşünmüyorum, ama başlangıçta bazen acı verici olduğunu biliyorum.

HDFS boyut sınırlamaları TB'yi aşar (veya exabyte mi demek istediniz?). Yanılmıyorsam, yottabytes veya kelimesini bile bilmediğim başka bir ölçümle ölçeklendirilir. Ne olursa olsun, gerçekten büyük.

Redshift gibi araçların yerleri var, ancak her zaman satıcıya özel çözümler için endişeleniyorum. Asıl endişem her zaman "hizmetlerinden memnun olmadığımda ne yapmalıyım?" - Google'a gidip analiz çalışmamı paradigmalarına taşıyabilirim veya hadoop'a gidip aynı işi o sisteme geçirebilirim. Her iki durumda da, yeni bir şey öğrenmem ve şeyleri tercüme etmek için çok fazla iş yapmam gerekecek.

Bununla birlikte, bir veri kümesi yükleyip hızlı bir şekilde çalışmaya başlayabilmeniz güzel - özellikle yaptığım işin kısa bir yaşam döngüsü varsa. Amazon, veri güvenliği sorununu cevaplamak için iyi bir iş çıkardı.

Hadoop'tan kaçınmak istiyorsanız, her zaman bir alternatif olacaktır. Ama bir kez başladıktan sonra çalışmak o kadar da zor değil.

— Steve Kallestad
kaynak

3

OP'nin TB'lere referansının "Hadoop'u ne için kullanabileceğinizin küçük ucundaki veriler için" anlamına geldiğini varsayıyorum. Birden fazla petabaytınız varsa, Redshift açıkça uygun değildir. (Yüz 16 TB'lık düğümlerle sınırlı olduğuna inanıyorum.)

— Tim Goodman