Metin için PDF dosyalarına ihtiyacım var, böylece komut satırından toplu olarak araştırabilirim. Ubuntu, OBSD veya benzeri dağıtım için bir çevirici var mı?
Belki ilgili yazı, burada ubuntu ile OCR .
pdftotext
= pdfcat
.
Metin için PDF dosyalarına ihtiyacım var, böylece komut satırından toplu olarak araştırabilirim. Ubuntu, OBSD veya benzeri dağıtım için bir çevirici var mı?
Belki ilgili yazı, burada ubuntu ile OCR .
pdftotext
= pdfcat
.
Yanıtlar:
Çok fazla seçeneğin var!
pdftotext
Poppler den zaten bahsedildi.
Orada adında bir Haskell programıpdf2line
iyi çalışıyor.
çaptaki sitesindeki ebook-convert
komut programını (veya kendi kalibre) başka bir seçenektir; PDF'yi düz metne veya başka bir e-kitap formatına (RTF, ePub) dönüştürebilir, bence oldukça yavaş olmasına rağmen, pdftotext'ten daha iyi sonuçlar veriyor.
ebook-convert file.pdf file.txt
AbiWord komut satırından bildiği herhangi bir format arasında dönüştürebilir ve en azından isteğe bağlı olarak bir PDF içe aktarma eklentisine sahiptir:
abiword --to=txt file.pdf
Diğer bir seçenek podofotextextract
de podofo PDF araçları kütüphanesinden. Bunu gerçekten denemedim.
İki Ghostscript araçlarını birleştirmek, varsa pdf2ps
ve ps2ascii
, henüz başka bir seçenek vardır.
Aslında birkaç yöntem daha düşünebilirim, ama şimdilik bunu bırakacağım. ;)
pdftotext
daha doğru sonuçlar verir ebook-convert
ve çok hızlıdır. ebook-convert
halsiz.
pdftotext
ile -layout
opsiyon kayaların! calibre
yüklemek için 600 MB'den fazla gerektirir! Bu çılgınlık)
PDF'leri pdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utils
package) ile komut satırındaki metne dönüştürebilirsiniz .
Recoll kullanabilirsiniz
(Ubuntu: recoll ; OpenBSD: port yok, ancak FreeBSD için bir tane var .), PDF de dahil olmak üzere çeşitli biçimlendirilmiş metin belgesi türlerinde arama yapmak için. Bir GUI var ve kaputun altında otomatik olarak bir dizin oluşturur. O kullandığı pdftotext
metin PDF dönüştürmek için.
Acrobat Reader (en azından Linux altında sürüm 9), sınırlı bir çoklu dosya arama özelliğine sahiptir (bir dizindeki tüm dosyaları arayabilirsiniz).
pdftotext, aradığınız şey olabilir: http://en.wikipedia.org/wiki/Pdftotext , çıkarmak istediğiniz metin gerçekten pdf belgelerinde bu kadar yaygın olmayan bir grafik biçiminde olmadığı sürece.
gPDFText, ebook PDF içeriğini uzun satır paragraflarda yeniden biçimlendirilmiş ASCII metne dönüştürür, Benim için çalışıyor ve grafiksel bir arayüze sahip.
gPDFText
alınabileceğini, nasıl kurulabileceğini ve OP'nin sorusunu cevaplamak için nasıl kullanılacağını ekleyebilirsiniz.