Oyuna girebilecek birçok faktör var, bu yüzden pek çok genel yönerge olduğunu düşünmüyorum.
Beklenen indeksleme ve arama yükünüzü kurulumda attığınızda işlerin nasıl davrandığını görmek için belki de ilk veri kümesinin 1 / 5'i ile daha küçük ölçekli bir değerlendirme yapmalısınız. Bu, verilerinizin arama motorunda gerçekte ne kadar yer kaplayacağını anlamanıza yardımcı olur. Elasticsearch için, kaynak json'u depolayıp saklamadığınıza ve alanların nasıl analiz edileceğine ve depolanıp depolanmadığına bağlıdır.
EC2, büyük bir yüksek harcama olmadan elastik araştırmayı değerlendirmek için makul bir yol olabilir.
Elasticsearch gibi küme tabanlı yazılımlar için, kümeyi daha küçük ve daha büyük tutmak arasında dengesizlikler vardır. Büyük bir küme güzeldir çünkü bir sunucuyu kaybettiğinizde, daha az verinin yeniden tahsis edilmesi gerekir. Daha küçük bir küme daha az enerji tüketir ve bakımı daha kolaydır.
Tüm dizinler çoğaltıldığından, toplam dizin boyutu 300 GB x 2 civarında 35 milyon belgeye sahip bir küme çalıştırıyoruz. Bunu ve çok sayıda aramayı desteklemek için, her biri 24 çekirdekli 4 düğüme, 48 GB RAM'e ve raid'de 10K diskli 1 TB depolama alanına sahibiz10. Yakın zamanda daha fazla kafa alanı olmasını sağlamak için disk boyutunu artırdık.
Durumunuz için daha fazla RAM ve daha fazla disk öneriyorum. Bu arama hacmiyle büyük olasılıkla CPU'lardan tasarruf edebilirsiniz.
Düşük arama hacmi aslında performansı düşürür, çünkü önbellekler (kullanılan yazılımın içinde ve işletim sistemi diskinde dahili) iyi ısıtılmaz.
Umarım bu yardımcı olur, Paul