100 TeraBytes Kapasite Veritabanı - Kaynaklar ve Zaman Tahminleri


10

100 TB raporlama veritabanı kurulumu için 'zarfın arkası' hesaplaması üzerinde çalışıyorum. Buradaki uzmanlardan düşünceler arıyorum. Önerilen ortam:

  1. Depolama Kapasitesi ~ 100 TB
  2. Tablolar ~ 200, 1 GB ile 5 TB arasında değişen boyutlar. ortalama boyut 100GB-200GB arasında olabilir
  3. ETL - işler 10 milyondan 500 bayta kadar birleştirme anahtarları ile 10 milyonlarca satırlık tablolar arasında birleştirmeyi gerektirebilir. bu tür birleşimler 2-5 dakikadan kısa sürede bitmelidir
  4. Canlı Seçimler - başlangıçta, yalnızca belirli hızlarla ilgilenir. saniyede 500 seçimi desteklemelidir. Güncellemeler / saniye nispeten daha küçük bir sayı olacaktır ve bu alıştırma için göz ardı edilebilir.
  5. 24x7 kullanılabilirliğe ihtiyaç duyar. Belirli çağrılar sunmak için 2 bağımsız DB sunucusu bulunmalıdır (veriler çoğaltılmış olarak).

Sorular:

  1. Şu anda Oracle'a bakıyorum. Büyük veritabanları için diğer ticari (veya) açık kaynak çözümleriyle olan deneyiminiz nasıl oldu?
  2. Hangi donanım-işletim sisteminin en iyi şekilde çalıştığını gördünüz? Dell'de Linux planlıyorum.
  3. NetApp gibi ağ depolaması şart mı? Raf dışı ticari disklerin kullanımıyla ilgili hangi sorunları öngörüyorsunuz?
  4. Donanım ve işletim sistemi hazır olduğunda, DB'yi, depolamayı vb. Ayarlamak, yapılandırmak için ne kadar zaman ayırırdınız?
  5. Hangi takım kompozisyonları gözlemlediğiniz ortamlarda en iyi sonucu verdi? Yani, böyle bir kurulumu yönetmek ve çalıştırmak için gereken çeşitli Yöneticiler (OS Admin, Oracle DB Admin?). 7x24 çalışma süresi elde etmek için kaç tanesine ihtiyaç duyulabilir.
  6. DB Lisansları, Ağ Depolama maliyetleri hakkında herhangi bir tahmin / aralık.

Tüm çevre detaylarına sahip olmadığımı biliyorum. Kesin detaylar aramıyorum, bir yaklaşım yeterli. Bazı sorular en iyi şekilde yöneticiler tarafından yanıtlanabilse de, Yöneticiler perspektifiyle ilgileniyorum. Katkınız için teşekkür ederim.


1
Bence bu soru cevaplamak için çok geniş. İlerlemeden önce başkalarının aynı fikirde olup olmadıklarını görmelerine izin vereceğim.
Mart'ta Philᵀᴹ

1
@Phil Kabul ediyorum, bunun birden fazla soruya bölünmesi gerekip gerekmediğinden emin değildim, böylece farklı uzmanlığa sahip kullanıcılar farklı bölümlere cevap verebilirler. Ancak çevre açıklaması tüm sorular için aynıdır, bu nedenle tek bir soru yapmaya devam edin. Bence bu SO ile ilgili ilk sorum olabilir (düzenli bir SO kullanıcısı olsa da), bu yüzden beni acemi olarak düşünün ve bu soruyu sormanın daha iyi bir yolu varsa, lütfen önerin.
Kash

10
Bu milyonlarca dolarlık bir projeye benziyor. Böyle bir projeyi forum tavsiyesine dayandırır mısınız?
Mart'ta Remus Rusanu

1
@RemusRusanu Bu tek bilgi kaynağı değil. Bu resmi değerlendirme aşamasına geldiğinde, birçok başka faaliyet olacaktır. SO kullanıcılarının önerileri hakkında yüksek bir fikrim var. Soruyu yazarken, hiç düşünmediğim bazı yararlı ayrıntıları bulacağımdan emindim.
Kash

1
@RemusRusanu - öyle. Netezza için gördüğüm son fiyat TwinFin sistemleri için $ 20k / TB idi. Bu kapasitenin bir Exadata kutusunun ne işe yarayacağından emin değilim. Ayrıca, SLA oldukça agresif ve sistem geniş bir kullanıcı tabanına sahip gibi görünüyor. Sorgu yükünü işlemek için çok sayıda data mart sunucusuna ihtiyaç duyulabilir.
endişeli

Yanıtlar:


21

İlk izlenimler

  1. Performans gereksinimlerinize bağlı olarak 100 TB oldukça agresif bir veri hacmidir. Oracle'ı istiyorsanız, Exadata sistemlerini kontrol etmelisiniz. Netezza veya Teradata'nın sunduğu tekliflere de göz atın. Bu seçim hacmi ile OLAP tabanlı bir kullanıcı arabirimine veya en azından oldukça agresif materyalize görünümler ve sorgu yeniden yazma kullanımına bakmak isteyebilirsiniz. Hiçbir şeyden 500 tablo taraması / saniye elde edemezsiniz.

    Daha az gecikme gereksinimi olan şeyler için, kullanıcı topluluğunuza raporlama kapasitesi sağlamak amacıyla çok sayıda veri markasını dikkate almak isteyebilirsiniz. Bu durumda, daha fazla sayıda sunucuda lisanslama Oracle ile aynı şeyi yapmaya çalışmaktan daha ucuz olacağından, SQL Server ve SSAS veri pazarları için bir seçenek olabilir.

  2. Bkz. (1). Paylaşılan disk mimarisindeki geleneksel donanımın bu boyut veri kümesinde yavaş olması muhtemeldir.

  3. HAYIR! Birisi NFS önerirse, onlara iyi bir vuruş verir. Doğrudan takılan depolama alanı veya çok sayıda orta aralık denetleyicisine sahip birden çok denetleyicili SAN. Belki birkaç düzine MD3000 serisi kontrolör veya benzeri bir şey açısından düşünün - eğer bir amaca yönelik 'büyük veri' platformu için gitmiyorsanız.

  4. PB serisi veri ambarı platformlarında deneyime sahip bir depolama uzmanı edinin. Muhtemelen önemli bir ETL geliştirme işine hazırsınız ve sert bir SLA ile karşılaşmanız gerekiyorsa birçok test çalışması yapıyorsunuz.

  5. Bir veri ambarında 7 gün 24 saat en iyi ihtimalle iddialı. Bu operasyonel bir raporlama platformu mu? Belki de gereksinimlerinizi biraz ayrıntılandırabilirsiniz.

  6. Sfinkter şaşırtıcı derecede pahalı ve performans gereksinimlerinize bağlı. Son gördüğüm (birkaç yıl önce) Netezza, TwinFin sistemleri için 20.000 $ / TB teklif ederdi, bu da platformunuzu 100 TB için 2 milyon dolar artı yedek sunucu ve yedek donanımınızın maliyetine dönüştürdü. Exadata, sanırım, biraz daha ucuz, ama elimde herhangi bir fiyatlandırma yok.

    Karşılaştırma için Netezza, Exadata ve Teradata platformuna ve ETL aracı olarak Ab Initio'nun maliyetlerine göz atın.

Bu oldukça agresif bir gereksinimler setidir - bir veri ambarındaki 24x7 normalde yapılmaz ve veri hacimleri sizi 'büyük veri' platformu alanına sokacak kadar büyüktür. Operasyonel bir raporlama gereksiniminiz varsa, bunun ne olduğuna dikkat etmelisiniz. Belirli bir nedeniniz yoksa (örneğin, düşük gecikme süresi olan bir piyasa veri feed'i) analitik bilgilerinizden ayrı tutun. Operasyonel ve analitik gereksinimlerin aynı platformda karıştırılması kötü mojo.

Gereksinimlerinizi değerlendirmek için gerçekten uzmanlara girmeniz gerektiğini düşünüyorum. Neyi başarmaya çalıştığınıza daha yakından bakmadan verebileceğim tek şey, ne yapıp yapmayacağınıza dair bazı ampirik önerilerdir.


8

Bunun gibi büyük veri hacimleriyle uğraşırken dikkate alınması gereken diğer bazı seçenekler şunlardır:

  1. @ConcernedOfTunbridgeWells tarafından gönderilen her şey
  2. EMC'den Greenplum
  3. Microsoft'tan Paralel Veri Ambarı

Hiçbir yerde donanım maliyetlerini azaltmayı planlamayın. Bu tür özelliklere sahip bir sistem size bazı büyük paralara mal olacak.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.