Önemsiz olarak paralelleştirilebilen bir uygulamam var, ancak performansı büyük ölçüde G / Ç'ye bağlı. Uygulama, genellikle 2-5 GB boyutunda bir dosyada depolanan tek bir girdi dizisini okur (ancak bu sayının gelecekte büyümesini beklerim). Tipik bir hesaplama, aynı işlemi o dizinin her satırına veya sütununa uygular. CPU-ağır işlemler için yaklaşık 100 işlemciye kadar çok iyi ölçeklendirme yaparım, ancak daha yavaş işlemler için G / Ç ve ilgili iletişim (NFS erişimi) baskındır ve birkaç işlemciden daha fazlasını verimli bir şekilde kullanamam.
Böyle bir durum için verimli ve taşınabilir (ideal olarak taşınabilir) verimli seçenekler nelerdir? Paralel HDF5 umut verici görünüyor. Bununla ilgili gerçek yaşam deneyimi olan var mı?
MPI-I / O bakmaya değer bir şey olabilir mi? Belirli bir dosya düzeniyle verimli bir şekilde çalışabilir mi veya her şeyi uyarlamam gerekiyor mu?