Metin için PDF dosyalarına ihtiyacım var, böylece komut satırından toplu olarak araştırabilirim. Ubuntu, OBSD veya benzeri dağıtım için bir çevirici var mı?
Belki ilgili yazı, burada ubuntu ile OCR .
pdftotext= pdfcat.
Metin için PDF dosyalarına ihtiyacım var, böylece komut satırından toplu olarak araştırabilirim. Ubuntu, OBSD veya benzeri dağıtım için bir çevirici var mı?
Belki ilgili yazı, burada ubuntu ile OCR .
pdftotext= pdfcat.
Yanıtlar:
Çok fazla seçeneğin var!
pdftotextPoppler den zaten bahsedildi.
Orada adında bir Haskell programıpdf2line iyi çalışıyor.
çaptaki sitesindeki ebook-convertkomut programını (veya kendi kalibre) başka bir seçenektir; PDF'yi düz metne veya başka bir e-kitap formatına (RTF, ePub) dönüştürebilir, bence oldukça yavaş olmasına rağmen, pdftotext'ten daha iyi sonuçlar veriyor.
ebook-convert file.pdf file.txt
AbiWord komut satırından bildiği herhangi bir format arasında dönüştürebilir ve en azından isteğe bağlı olarak bir PDF içe aktarma eklentisine sahiptir:
abiword --to=txt file.pdf
Diğer bir seçenek podofotextextractde podofo PDF araçları kütüphanesinden. Bunu gerçekten denemedim.
İki Ghostscript araçlarını birleştirmek, varsa pdf2psve ps2ascii, henüz başka bir seçenek vardır.
Aslında birkaç yöntem daha düşünebilirim, ama şimdilik bunu bırakacağım. ;)
pdftotextdaha doğru sonuçlar verir ebook-convertve çok hızlıdır. ebook-converthalsiz.
pdftotextile -layoutopsiyon kayaların! calibreyüklemek için 600 MB'den fazla gerektirir! Bu çılgınlık)
PDF'leri pdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utilspackage) ile komut satırındaki metne dönüştürebilirsiniz .
Recoll kullanabilirsiniz
(Ubuntu: recoll ; OpenBSD: port yok, ancak FreeBSD için bir tane var .), PDF de dahil olmak üzere çeşitli biçimlendirilmiş metin belgesi türlerinde arama yapmak için. Bir GUI var ve kaputun altında otomatik olarak bir dizin oluşturur. O kullandığı pdftotextmetin PDF dönüştürmek için.
Acrobat Reader (en azından Linux altında sürüm 9), sınırlı bir çoklu dosya arama özelliğine sahiptir (bir dizindeki tüm dosyaları arayabilirsiniz).
pdftotext, aradığınız şey olabilir: http://en.wikipedia.org/wiki/Pdftotext , çıkarmak istediğiniz metin gerçekten pdf belgelerinde bu kadar yaygın olmayan bir grafik biçiminde olmadığı sürece.
gPDFText, ebook PDF içeriğini uzun satır paragraflarda yeniden biçimlendirilmiş ASCII metne dönüştürür, Benim için çalışıyor ve grafiksel bir arayüze sahip.
gPDFTextalınabileceğini, nasıl kurulabileceğini ve OP'nin sorusunu cevaplamak için nasıl kullanılacağını ekleyebilirsiniz.