Metin dönüştürücü için bir tür PDF var mı?


21

Metin için PDF dosyalarına ihtiyacım var, böylece komut satırından toplu olarak araştırabilirim. Ubuntu, OBSD veya benzeri dağıtım için bir çevirici var mı?

Belki ilgili yazı, burada ubuntu ile OCR .



"Gerçek" bir PDF ise (metinden yapılmış vb.) Pdftotext en iyi seçeneğinizdir. Bu bir görüntü ise, en iyi bahis bazı OCR şeyler.
von

1
Hep kullanmak pdftotext= pdfcat.
isomorphismes,

Yanıtlar:


22

Çok fazla seçeneğin var!

pdftotextPoppler den zaten bahsedildi.

Orada adında bir Haskell programıpdf2line iyi çalışıyor.

çaptaki sitesindeki ebook-convertkomut programını (veya kendi kalibre) başka bir seçenektir; PDF'yi düz metne veya başka bir e-kitap formatına (RTF, ePub) dönüştürebilir, bence oldukça yavaş olmasına rağmen, pdftotext'ten daha iyi sonuçlar veriyor.

ebook-convert file.pdf file.txt

AbiWord komut satırından bildiği herhangi bir format arasında dönüştürebilir ve en azından isteğe bağlı olarak bir PDF içe aktarma eklentisine sahiptir:

abiword --to=txt file.pdf

Diğer bir seçenek podofotextextractde podofo PDF araçları kütüphanesinden. Bunu gerçekten denemedim.

İki Ghostscript araçlarını birleştirmek, varsa pdf2psve ps2ascii, henüz başka bir seçenek vardır.

Aslında birkaç yöntem daha düşünebilirim, ama şimdilik bunu bırakacağım. ;)


calibre'nin ebook-convert ... bitişik harflerin ne yaptığını gördünüz mü? bleargh. Hadi bu şekilde koyalım: çok etkili bir program değil. pdftotext çok daha sadık. çıktılarında hiçbir hata bulamadım.
ixtmixilix

1
PDF dosyalarını metin olarak görüntülemek için daha az kullanabilirsiniz . Pdftotext veya benzeri araçları çağırmak için önişlemciyi, yani çıkış borusunu çağırır.
Daniel Näslund

pdftotextdaha doğru sonuçlar verir ebook-convertve çok hızlıdır. ebook-converthalsiz.
Amit Patel

pdftotextile -layoutopsiyon kayaların! calibreyüklemek için 600 MB'den fazla gerektirir! Bu çılgınlık)
Stalinko

9

PDF'leri pdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utilspackage) ile komut satırındaki metne dönüştürebilirsiniz .

Recoll kullanabilirsiniz (Ubuntu: recoll ; OpenBSD: port yok, ancak FreeBSD için bir tane var .), PDF de dahil olmak üzere çeşitli biçimlendirilmiş metin belgesi türlerinde arama yapmak için. Bir GUI var ve kaputun altında otomatik olarak bir dizin oluşturur. O kullandığı pdftotextmetin PDF dönüştürmek için.

Acrobat Reader (en azından Linux altında sürüm 9), sınırlı bir çoklu dosya arama özelliğine sahiptir (bir dizindeki tüm dosyaları arayabilirsiniz).



-1

gPDFText, ebook PDF içeriğini uzun satır paragraflarda yeniden biçimlendirilmiş ASCII metne dönüştürür, Benim için çalışıyor ve grafiksel bir arayüze sahip.


3
Merhaba ve siteye hoşgeldiniz. Burada cevapların biraz daha kapsamlı olmasını istiyoruz. Örneğin, nereden gPDFTextalınabileceğini, nasıl kurulabileceğini ve OP'nin sorusunu cevaplamak için nasıl kullanılacağını ekleyebilirsiniz.
terdon
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.