Birkaç Petabayt genomik verisinin veri kümesi hakkında günlük bir dosya boyutu raporu almaya çalışıyorum.
Mevcut raporumuzda birden fazla çakışma var du
sonucu elde etmek için yapılan çağrılar, ancak yürütülmesi 24 saatten fazla sürüyor. Bunu daha verimli / hızlı / 'temiz' yapmanın bir yolunu arıyorum.
şu anda yapıyoruz:
# broad overview of dozens of projects + grand total
du -chd1 /petastorage/projects/
# detailed look at some 'special' projects,
# each of these has huge sub-dirs we want to track individually
du -hd1 /petastorage/projects/special_project_A/
du -hd1 /petastorage/projects/special_project_B/
du -hd1 /petastorage/projects/special_project_C/
Beni rahatsız eden şey bu special_project_[ABC]
Ayrıntılı görünüm için bir kez genel toplam görünümde bir kez iki kez taranır. Bu özel projeler büyük miktarda veriyi oluşturduğundan, onları iki kez taramak muhtemelen (uyarı: varsayım) çalışma zamanının önemli bir parçası.
Ayrıca, petabaytlardan bahsettiğimizden, herhangi bir dosya sistemi önbelleğe alma düzeyinin tekrarlanan çağrıları hızlandıracağına inanmıyorum.
'Optimizasyonu' denedim du -d1 /petastorage/projects/ /petastorage/projects/special_project_[ABC]/
ama görünüyor du
Özel projelerin ilk dizinin alt dizinleri olduğunu anlayacak kadar akıllıdır ve bu yüzden onları raporlamadan 'optimize eder'. Gah!
Nasıl ikna edebileceğim konusunda fikri olan var mı? du
Petabitlerimi yalnızca bir kez tarayarak, hem tüm projeleri tek tek hem de üç 'özel projenin' (bir seviye-derin) ayrıntı görünümünü ortaya çıkaran
not: Geçerli du-çıktı, e-posta raporunda daha iyi ve yinelenmeyen bir şekilde görüntülenmesini sağlamak için halihazırda bir dizi / uniq boru tesisatı içine alınmış olduğundan, işleme sonrası işlemleri içeren çözümler kabul edilebilir. İşleme sonrası herhangi bir çalışma zamanı, eğirme pasının statting statata kıyasla sıfırdır.
Önemli olması durumunda arka plan: bu, OpenSuse 11.4'e monte edilmiş EMC-isilon depolama düğümlerine bir NFSv3 montajıdır.
Tüm projeler şu anda adalardaki tek bir depolama havuzunu paylaşıyor, böylece projeler arasında boş alan değiştirilebiliyor. 'Özel' projeleri kendi dosya sistemlerine taşımak, böylece 'hile yapabiliriz' df
boyutları nedeniyle mümkün değildir.