Taranmış bir PDF'yi metin içeren bir PDF'ye nasıl dönüştürebilirim

36

Yaklaşık 80 sayfayı gri tonlamalı pdf (resim formatı) olarak taradım. Dosyanın son boyutu yaklaşık 70 MB'dir ve bu çok büyüktür.

Şimdi gri tonlamalı görüntü tabanlı PDF dosyasını basit siyah / beyaz metin tabanlı bir PDF dosyasına dönüştürmek için bir yöntem arıyorum.

Çok sayıda girişimde bulundum, gsancak başarılı olamadım (sadece yüzde birkaç iyileşme). Herhangi bir uzmanın bir fikri varsa, lütfen bana bildirin.

pdf

— Amiral
kaynak

1

Biraz OCR aracına ihtiyacınız var. Tesseract bak ubuntuforums.org/showthread.php?t=880471

— Nikita U.

4

PDF görüntülerini olduğu gibi tutmak ve metin eklemekle ilgileniyorsanız, PDF'ye OCR bilgisi ekleme sorusuna bakın .

— colan,

Bir sayfalık bir örneğe bir link gönderebilirseniz, çözümleri test edebiliriz ...

— Rmano

Bu bir OCR çözümü değil ama askubuntu.com/a/3387/16395 çok yardımcı oluyor (72dpi biraz düşük olsa da, 120 ile daha iyi sonuçlar aldım).

— Rmano

YAGF Ubuntu 16.04 ile düzgün çalışıyor mu? Bir görüntü veya pdf dosyası yüklersem, program herhangi bir hata mesajı olmadan iptal olur. 14.04 Ubuntu altında hiçbir sorun yaşamadım. H.Roos

— Hubert Roos,

25

gImageReader basit bir GTK + ön uçudur tesseract-ocr.

sudo apt-get install gimagereader tesseract-ocr

almanca metin için üzgünüm

— AB
kaynak

4

Ayrıca, OCR'yi geliştirmek için belgenin dilini , dil kodu ile sudo apt-get install tesseract-ocr-[lang]değiştirerek lang, deuDeutsch poriçin, Portekizce vb.

— İle değiştirmelisiniz

1

Bu yazılım çirkin. Kullanılabilirlik sıfırın altında. İşi yapmaya çalışsa da, elektronik tablo benzeri tabloları okuyamıyor. Sadece onları içeren sayfaları özlüyor.

— Max Yudin

9

Pdfocr'ı deneyebilirsiniz:

 sudo add-apt-repository ppa:gezakovacs/pdfocr
 sudo apt-get update
 sudo apt-get install pdfocr

Sözdizimini yürütmek

 pdfocr -i input.pdf -o output.pdf

nerede input.pdfgirdi dosyası ve adıdır output.pdfçıkış dosyasının.

Varsayılan olarak Tesseract kullanır. Yüklemek için:

 sudo apt-get install tesseract-ocr

pdfocr gömülü bir metin katmanı oluşturur.

— rafmunozf
kaynak

Harika! İlginç bir şekilde, yukarıdaki adımları uyguladıktan sonra, şimdi Adobe Acrobat DC'de aranabilir ancak Önizlemede bulunmaz.

— lukeaus

2

Bu depo xenial'i desteklemiyor

— Max N

Eğer xenial üzerine wily sürümünü yüklüyse, pdfocr'nin eski bir sürümünü yüklemeyi deneyebilirsiniz. Bunu yapmak için "deb ppa.launchpad.net/gezakovacs/pdfocr/ubuntu wily main" ve "deb-src ppa.launchpad.net/gezakovacs/pdfocr/ubuntu wily main" /etc/apt/sources.list ve ardından ekleyin "sudo apt güncelleme" ve "sudo apt-get install pdfocr"

— rafmunozf

2

pdfocr, aşağıdaki işlemi otomatikleştiren bir komut dosyasıdır: 1. PDF dosyasını pdftk kullanarak ayrı sayfalara bölme 2. Pdfimages kullanarak resim verilerini çıkarma 3. Çivi yazısı kullanarak OCR (optik karakter tanıma) kullanarak 4. Tespit edilen metni tekrar içine gömme Hocr2pdf kullanarak PDF dosyası 5. pdftk kullanarak dosyaları birleştirme. ( ubuntuforums.org/showthread.php?t=1456756 adresinden alıntı )

— Tommy Trussell

3

pdfsandwich

Yükleme sırasında tesseract ve diğerlerini yükler. Bu kolay bir adım çözümdür ve komut dosyası yazılabilir. hocr2pdfDüz bir metin pdf oluşturmak için kullanabilirsiniz , ancak asal zaman için hazır değil ... henüz. Varsayılan değer tesseract kullanır ve altında "sandviç" pdf: image + text oluşturur.

Gömülü görüntü aşağıdaki komutlarla kaldırılabilir:

gs -o ocr_noIMG.pdf -sDEVICE=pdfwrite -dFILTERIMAGE ocr_image.pdf

ancak metin gizlidir, bu nedenle boş bir sayfaya benziyor.

PDF'yi LibreOffice Drawyüklemek, metni gösterir ve görüntü manuel olarak silinebilir.

— AtesComp
kaynak

Bu gibi not authorizedhatalara yol açan imagemagick / ghostscript güvenlik sorunları hakkında ne yapıyoruz identify-im6.q16: imagemagick - convert: değil yetkili aaaa@ error / construcute.c / ReadImage / 453 - Stack Overflow

— nealmcb

1

Ubuntu 14.04'te @AB tarafından önerilen grafik arayüz için aşağıdakileri yapmalısınız:

ubuntu'da ocr tesseract 14.04

veya yine de, depo listesine ekleyin:

sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt-get update

bu işe yaramadan önce:

sudo apt-get install gimagereader

— michel.iamit
kaynak

1

Sen deneyebilirsiniz shrinkpdf dosya boyutu azaltmak için ve daha sonra ocr.sh metin katmanı ekleyin.

— Öğrenci
kaynak

-1

PDF dosyanızda, her sayfayı sağ tıklayın ve görüntü olarak kaydedin (veya tüm sayfaları otomatik olarak yapan bir araç bulun)

Ubuntu yazılım merkezini açın. Tesseract için arayın. Bu, yüklemeniz gereken YAGF'yi bulacaktır. YAGF'da, Dosya -> Resmi Aç'a tıklayın ve resminizi yükleyin. Ardından Dosya -> Tanıma'ya tıklayın.

İlk testimde% 100 doğruluk elde ettim.

— atmelino
kaynak