Sıklıkla "orta veri" projeleri olarak adlandırılabilecek projeler üzerinde çalışarak, kodumu (çoğunlukla Python'da modelleme ve tahmin için) 4 ila 32 çekirdek arasındaki herhangi bir yerde tek bir sistemde paralelleştirebildim. Şimdi EC2'deki kümelere (muhtemelen StarCluster / IPython ile, ancak diğer önerilere de açık) ölçeklenmeye bakıyorum ve bir örnek üzerinde bir küme üzerindeki örneklere karşı çekirdekler arasında dağıtımı nasıl uzlaştırılacağına şaştım.
Örnekler arasında ve her örnekte çekirdekler arasında paralel olmak bile pratik mi? Öyleyse, herkes her biri birkaç çekirdekli birçok örneği çalıştırmanın artıları ve eksilerini hızlı bir şekilde özetleyebilir mi? Örneklerin örnek başına çekirdeklere doğru oranını seçmek için genel bir kural var mı?
Bant genişliği ve RAM, projelerimde önemsiz konulardır, ancak bunların darboğazlar ve yeniden ayarlamalar olduğunu fark etmek kolaydır. Tahmin ediyorum ki, tekrarlanan testler olmadan doğru çekirdek karışımını örneklerle karşılaştırmak çok daha zor ve projelerim her testin tüm koşullara uygulanması için çok farklı. Şimdiden teşekkürler ve bunu düzgün bir şekilde google'da başarısız olduysam, başka bir yerde doğru cevaba yönlendirmekten çekinmeyin!