Linux'ta komut dosyasında pdf'den metin nasıl çıkarılır?


23

Linux'ta - .pdfTaranan bir görüntü değil, metnin gerçekte metinden oluştuğu bir metinden nasıl ayıklanır? Etkileşimli değil, komut satırında / bir komut dosyasında kullanabileceğim bir şey istiyorum. ( .tifOCR'ye dönüştürmek ve kullanmak istemiyorum - metin zaten .pdfdosyada mevcut , bu yüzden neden kusurlu OCR'deki yanlışlıkları tanıtmak?)


Yanıtlar:


25

pdftotext poppler ile birlikte gelen PDF'de bulunan herhangi bir metni çıkarmaya çalışacaktır.


1
Hızlı cevabınız için teşekkürler Ignacio! Ben zaten w xpdf (foolabs.com gelen) gelen pdftotext kontrol ediyordu - Cevabınız başka bir göz atmamı istedi ve ben çalıştım. Poppler xpdf'den evrimleşmiş gibi görünüyor, bu yüzden ben de buna bir göz atacağım. Tekrar teşekkürler!
RobM

9

Ignacio'nun cevabı gayet iyi. Aslında, listemdeki ilk şey olurdu. Peki, bu ve belki pdftohtmlde poppler ile birlikte gelen aracı önermek için , metni paragraflara yeniden birleştirmeye çalışmak istiyorsanız pdfreflow ile birleştirin. (Tabii ki, bu size HTML çıktısı verecektir, ancak HTML'yi düz metne dönüştürmek birçok şekilde yapılabilir.)

İşte başka seçenekler de.

ebook-convertDan komut satırı aracı Caliber düz metne .pdfs dönüştürebilir, (veya RTF veya e-kitap formatları bir dizi vb ePub'a gibi)

pdftxtextractdan Podofo

Abiword , girebileceği / dışa aktarabileceği herhangi bir format arasında dönüştürme yapmak için komut satırından çağrılabilir ve uygun içe aktarma eklentisi ile PDF'ler şunları içerir:

abiword --to=txt file.pdf

(Adil olmak gerekirse, AbiWord ve calibre'nin her ikisi de poppler kütüphanelerini kullanıyor, ancak olumlu değilim.)


Teşekkürler frabjous! Bu durumda, sadece belirli dizeleri (satıcı adları, hesap numaraları) ve kalıpları (fatura numaraları ve tarihleri) tarayabilmem için metni çıkarıyorum - yeniden biçimlendirmeye veya yeniden görüntülemeye gerek yok. Doğrulamayı ve alternatifleri takdir ediyorum - ve eminim başkaları da yapacak! - Rob
RobM
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.