Toplu meta veri ve pdf dosyalarının metin çıkarımı


1

Her biri metin içeren bir dizi PDF dosyasına sahibim. Ancak, bu dosyaların bazıları bir şekilde düzgün oluşturulmamış; seçilebilir metin aranamaz veya düz metne dönüştürülemez (elde edilen metin dosyası genişletilmiş ascii karakterleri içerir). Dosyalardan bazıları bir hatadan daha fazla sinsidir, çünkü txt'ye dışa aktarma yalnızca belirli metnin (örneğin başlıklar) okunabilir olmasına neden olur. Ayrıca, bunlar teknik olarak 'metin' PDF'leri olduğundan, OCR'yi doğrudan üzerlerinde çalıştırmak mümkün değildir ("Bu sayfa çok iyi metinler içeriyor" şeklinde bir hata üretiliyor.) Bunun neden olduğunu ve hasarlı PDF'lerin nasıl olduğunu tespit etmeye çalışıyorum sabitlenebilir.

Her pdf dosyası için toplu işlem yapmak istediğim şey bu:

  1. "PDF Producer" meta veri etiketini çıkarın

  2. PDF'yi metne dönüştür

  3. PDF'yi bir TIFF'ye dönüştürün

  4. Elde edilen TIFF'de OCR'yi çalıştırın ve txt'ye verin

  5. PDF-> TIFF-> OCR-> TXT metin dosyasına karşı PDF-> TXT metin dosyasında bir fark çalıştırma

  6. Meta veri etiketini ve txt diff'in bir boolean sonucunu csv dosyasına yazın

Adobe Acrobat X Pro, bir cygwin kurulumu ve çalışmak için bir windows exiftool ( buradan ) var ve gerekirse diğer araçlara erişebiliyorum.

Bu konuyla nasıl başa çıkabileceğim konusunda herhangi bir ipucu var mı?

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.