Toplu meta veri ve pdf dosyalarının metin çıkarımı

Her biri metin içeren bir dizi PDF dosyasına sahibim. Ancak, bu dosyaların bazıları bir şekilde düzgün oluşturulmamış; seçilebilir metin aranamaz veya düz metne dönüştürülemez (elde edilen metin dosyası genişletilmiş ascii karakterleri içerir). Dosyalardan bazıları bir hatadan daha fazla sinsidir, çünkü txt'ye dışa aktarma yalnızca belirli metnin (örneğin başlıklar) okunabilir olmasına neden olur. Ayrıca, bunlar teknik olarak 'metin' PDF'leri olduğundan, OCR'yi doğrudan üzerlerinde çalıştırmak mümkün değildir ("Bu sayfa çok iyi metinler içeriyor" şeklinde bir hata üretiliyor.) Bunun neden olduğunu ve hasarlı PDF'lerin nasıl olduğunu tespit etmeye çalışıyorum sabitlenebilir.

Her pdf dosyası için toplu işlem yapmak istediğim şey bu:

"PDF Producer" meta veri etiketini çıkarın
PDF'yi metne dönüştür
PDF'yi bir TIFF'ye dönüştürün
Elde edilen TIFF'de OCR'yi çalıştırın ve txt'ye verin
PDF-> TIFF-> OCR-> TXT metin dosyasına karşı PDF-> TXT metin dosyasında bir fark çalıştırma
Meta veri etiketini ve txt diff'in bir boolean sonucunu csv dosyasına yazın

Adobe Acrobat X Pro, bir cygwin kurulumu ve çalışmak için bir windows exiftool ( buradan ) var ve gerekirse diğer araçlara erişebiliyorum.

Bu konuyla nasıl başa çıkabileceğim konusunda herhangi bir ipucu var mı?

— Al S
kaynak