Ana cevap
Aynı tür bir işle ilgilendiğim için (PDF dosyalarını mutlaka OCR'a değil, ancak onları DjVu'ya ve sonra OCR'a dönüştürmek için), bu soruyu ve yanıtları eksik buldum (çünkü DPI'nin tahminini tahmin etmem gerektiğinden) piksel sayısı ile görüntüler ve daha sonra boyutu çıktı olarak pdfinfo
veya diğer hileler olarak kullanın --- PDF içindeki görüntülerin farklı yoğunluklara sahip olabileceğinden bahsetmiyorum).
Daha fazla araştırma yaptıktan sonra, pdfimages
( poppler-utils paketinden ) aşağıdaki gibi kullanabileceğinizi buldum :
$ pdfimages -list deptest.pdf
page num type width height color comp bpc enc interp object ID x-ppi y-ppi size ratio
--------------------------------------------------------------------------------------------
1 0 image 100 100 gray 1 1 image no 9 0 53 53 169B 14%
2 1 image 100 100 gray 1 1 ccitt no [inline] 53 53 698B 56%
x-ppi
Ve y-ppi
yukarıdaki listeye dikkat edin . Ayrıca görüntülerin PDF'de saklanma biçimini de listeler, bu da serindir (bazen JBIG2, bazen JPEG2000 vb.)
Not: Dosya deptest.pdf
üzerinde kullanılan mevcuttur dan pdfsizeopt
bireyin depo .
Gerçek eylem
Bundan sonra, görüntüleri pdfimages
kendisiyle çıkarabilir veya tüm sayfaları beğenebileceğiniz birçok formatta (örneğin, tarama için tiff) oluşturmak için pdftoppm
(ayrıca poppler-utils
) kullanabilirsiniz tesseract
.
Aşağıdaki gibi bir şey kullanabilirsiniz ( imgs
resimlerinizi koyacağınız bir ad oluşturduğunuz varsayılarak ):
pdfimages -png Faraway-PRA.pdf imgs/prefix
Dosyalar, dizinde , aşağıdaki gibi imgs
adlarla başlayarak oluşturulacaktır prefix
:
$ ls
prefix-000.png prefix-047.png prefix-094.png prefix-141.png
prefix-001.png prefix-048.png prefix-095.png prefix-142.png
prefix-002.png prefix-049.png prefix-096.png prefix-143.png
prefix-003.png prefix-050.png prefix-097.png prefix-144.png
(...)
Ardından, benzer araçlarla scantailor
veya istediğiniz herhangi bir şeyle uygun gördüğünüz herhangi bir ameliyatı yapabilirsiniz .
Daha doğrudan cevap
Bir PDF dosyasını OCR yapmak istiyorsanız, bakımlı ve önceden paketlenmiş bir programı yani ocrmypdf kullanabilirsiniz .
x-ppi
(DPI x çözünürlüğü) vey-ppi
(DPI y çözünürlük) eski sürümlerinde gösterilen DEĞİLDİRpdfimages
Örneğin Ubuntu 14.04 ile geldiği. Ancak Ubuntu 18.04'te mevcut olanlar bu değerleri içerir.pdfimages -v
Benim Ubuntu 18.04 makine şovlarda ben sürüm 0.62.0, var does bu özelliklere sahip.