Üç dosya sisteminde ~ 40 TB veri içeren bir araştırma kümesi miras aldım. Veriler neredeyse 15 yıl öncesine uzanıyor ve araştırmacılar birbirlerini farklı nedenlerle kopyalayıp daha sonra kopyalara asıldığından büyük olasılıkla iyi miktarda kopya var.
Ben fdupes ve rmlint gibi de-duping araçları biliyorum. Böyle büyük bir veri kümesi üzerinde çalışacak bir tane bulmaya çalışıyorum. Tüm verileri taramak haftalar (hatta belki aylar) alır mı umurumda değil - muhtemelen dosya sistemlerinde kolay gitmek için yine de kısaltacağım. Ancak RAM ile bir şekilde süper verimli bir araç bulmam gerekiyor veya ihtiyaç duyduğu tüm aracı verileri RAM yerine dosyalarda saklayabiliyorum. Tüm bu verilerden bir set olarak tararsam RAM'imin (64GB) tükendiğini varsayıyorum.
Şu anda 900 GB'lık bir ağaçta fdupes deniyorum. Yolun% 25'i ve RAM kullanımı yavaş yavaş sürünüyor, şimdi 700MB'da.
Veya, disk eşlemeli RAM'i kullanmak için bir işlemi yönlendirmenin bir yolu var mı, bu yüzden daha fazla kullanılabilir ve sistem RAM'i kullanmıyor mu?
CentOS 6 kullanıyorum.