Ben Jeofizik doktora öğrencisiyim ve çok fazla resim verisiyle çalışıyorum (yüzlerce GB, on binlerce dosya). Biliyorum svn
ve git
oldukça iyi ve birlikte kolayca işe yeteneği ile kombine bir proje öyküsü, değer ve disk yolsuzluğa karşı korumaya sahip geliyorlar. git
Tutarlı yedeklemeler için de son derece yararlı buluyorum ancak Git'in büyük miktarlarda ikili verileri verimli bir şekilde idare edemediğini biliyorum.
Yüksek lisans çalışmalarımda, benzer boyuttaki veri kümelerinde (aynı zamanda resimlerde) çalıştım ve farklı sunucularda / cihazlarda farklı sürümleri takip etmede sorun yaşadım. Ağ üzerinden 100 GB dağıtmak gerçekten eğlenceli değil ve bana çok zaman ve emek harcadı.
Bilimdeki diğerlerinin de benzer problemleri olduğunu biliyorum ama yine de iyi bir çözüm bulamadım.
Enstitümün depolama olanaklarını kullanmak istiyorum, bu yüzden "aptal" bir sunucu kullanabilecek bir şeye ihtiyacım var. Ayrıca taşınabilir bir sabit diskte ek bir yedekleme yapmak istiyorum, çünkü mümkün olan her yerde ağ üzerinden yüzlerce GB aktarımı yapmak istemiyorum. Bu yüzden, birden fazla uzak konumu işleyebilecek bir araca ihtiyacım var.
Son olarak, diğer araştırmacıların kullanabileceği bir şeye ihtiyacım var, bu yüzden süper basit olması gerekmez, ancak birkaç saat içinde öğrenilebilir olması gerekir.
Birçok farklı çözümü değerlendirdim, ancak hiçbiri tasarıya uygun görünmüyor:
- svn biraz verimsiz ve akıllı bir sunucuya ihtiyaç duyuyor
- hg bigfile / largefile sadece bir uzaktan kumanda kullanabilir
- git bigfile / media yalnızca bir uzaktan kumanda kullanabilir, ancak çok verimli değil
- çatı bir günlük veya farklı yeteneklere sahip gibi görünmüyor
- bup gerçekten iyi görünüyor, ancak çalışması için "akıllı" bir sunucuya ihtiyacı var
Yapmam gereken git-annex
her şeyi yapan denedim (ve çok daha fazlası), ancak kullanımı çok zor ve iyi belgelenmiş değil. Birkaç gün kullandım ve kafamı dolaştıramadı, bu yüzden başka bir iş arkadaşının ilgisini çekeceğinden şüpheliyim.
Araştırmacılar büyük veri kümeleriyle nasıl başa çıkmaktadır ve diğer araştırma grupları neler kullanıyor?
Açıkçası, öncelikle sadece bu spesifik veri setiyle değil, diğer araştırmacıların bu durumla nasıl başa çıktıklarıyla ilgileniyorum. Bana öyle geliyor ki neredeyse herkesin bu problemi olması gerekiyor, ama bunu çözen birini tanımıyorum. Orijinal verilerin bir yedeğini almalı mıyım ve tüm bu sürüm kontrol malzemelerini mi unutmalıyım? Herkesin yaptığı bu mu?