PDF'leri daha az nasıl gösterir?


52

Birkaç program denedim: pdftotext, pdf2txt.py, ... Hepsi, PDF'lerden metin çıkarabilirler, ancak daha iyi iş yapan bir tanesi iyidir less: PDF'den gelen metin uygun bir düzende. Daha az bunu nasıl yapıyor? Herhangi bir kütüphane kullanıyor mu, yoksa PDF işlemesi yerleşik mi?

Soruyorum çünkü bu işlevselliği programlı olarak kullanmak istiyorum, mutlaka harici bir program olarak daha az çalıştırmak zorunda kalmamıştım (python yapıyorum).

Benim sistemim:

» less --version
less 458 (GNU regular expressions)
Copyright (C) 1984-2012 Mark Nudelman

less comes with NO WARRANTY, to the extent permitted by law.
For information about the terms of redistribution,
see the file named README in the less distribution.
Homepage: http://www.greenwoodsoftware.com/less

» uname -a
Linux polyphemus 3.13.0-53-generic #89-Ubuntu SMP Wed May 20 10:34:39 UTC 2015 x86_64 x86_64 x86_64 GNU/Linux

Yanıtlar:


63

Dağıtımınız muhtemelen popüler lesspipe.shbetiği kullanıyordur . LESSOPENOrtam değişkenini kontrol edin .

Bu komut dosyası birçok varyasyonda var. Gentoo versiyonuna bakıyorum. İçinde aşağıdaki satırı bulacaksınız:

*.ps|*.pdf) ps2ascii "$1" || pstotext "$1" || pdftotext "$1" ;;

Bu, gösterilen komutları bu komutları deneyeceği anlamına gelir. $1dosya adıdır.

Başka bir sürüm aşağıdaki komutu kullanır:

pdftohtml -stdout "$t" | parsehtml -

15
Teşekkürler, kullandığı ortaya çıkıyorpdftotext -layout $1 -
dangonfast 9:15 '

@ jeckyll2hide Daha azıyla daha iyi sonuçlar için açıklamayı buldunuz mu?
vvy

@vvy Muhtemelen -layoutanahtarı. ;)
Daniel B
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.