Şu anda yaz stajyerliği yapıyorum.
İlk hedefim, bir dosya koleksiyonu verildiğinde, içindeki dosya türlerini kurtarıp tanımlamak.
Kullandığım örnek sahte-adli tıp verilerini indirmek için: Digital Corpora
Dosyaları kurtarmak için ' The Sleuthkit ' kullanıyorum ancak bu, kullanılan verilerin formatı ile ilgili her zaman hata mesajları alıyorum gibi görünüyor.
Verileri kurtarmaya yardımcı olacak öğreticilere veya yazılımlara öneriler / bağlantılar almak harika olurdu.
Ayrıca, yukarıdaki ile benzer adli tıp verileri indirmek için bağlantılar bekliyorum.
Özellikle, metin biçimlerindeki (word, pdf, e-postalar, html ... vb.) Tüm verileri kurtarmak ve sonra metin biçiminde tek bir dosyada birleştirmek ve kişinin ilişkili olduğu yerleri belirlemek için doğal dil işlemeyi kullanmak istiyorum. ile. Sorunun doğal dil işleme yönü ile ilgili bazı fikirlerim var ancak veri kurtarma konusunda yardıma ihtiyacım var. Bu işi yapmak için en iyi yöntem.