Açık kaynak (ve otomasyon) hayranı olarak bunu söylemekten nefret ediyorum, ancak aldığım en iyi sonuçlar (oldukça büyük, karmaşık bir PDF'de) Adobe Reader'da açmaktı, sonra Dosya | Metin Olarak Kaydet'i seçin.
(Okuyucu olarak değil, metin analizi deneyleri için ön işlem yapıyorum, ancak ilk ve ikinci tercihimin aynı olacağını düşünüyorum.)
Çıktıyı yan yana karşılaştırıyorum. İkinci tercihim ebook-convert.
Adobe : sayfa sonları için FF'de kaldı, sayfa numaralarında bırakıldı, başlıkları / paragrafları tek satırlara dönüştürmedi, ancak sabit tire koydu. PDF'de gizlenen önemsiz çıktı alınamadı. “Büyük” ve “Büyük” değil, “Büyük” gibi bölümlerin başında büyük başkentler doğru geldi.
ebook-convert : Sayfa numaralarında bırakılır ve üstbilgi / altbilgide bazı gizli önemsizler (ancak FF'ler olmaz). Paragrafların çoğunu tek satır olarak dönüştürür. Kaçırdıkları ise olsa iki boşluklu! Madde işaretleri her zaman metinle aynı hizada olmaz. Doğru bölümün başında "The" var.
pdftotext (-layout olmadan) : Fena değil, madde işaretleri hizalı, ancak başlık / altbilgi gürültüsü. FF'ler orada. Tire kaldırıldı. Büyük harflerin başlaması için en kötüsü: "T \ n \ nhe".
pdftotext (--layout ile) : Benzer, ancak daha fazla girintiler. Bölüm başlangıcı için "o".
pdftohtml >> pdfreflow >> htmltotext : Sayfa numaralarını sildi , ancak yine de üstbilgi / altbilgide önemsiz kaldı. Bölüm başlangıcı için "o". Tire kaldırıldı. (Paragraf başına birden çok satır kullanır, ancak diğer sürümlerde olduğu gibi aynı satır kesmeleri değildir!)