Taranmış bir PDF'yi metin içeren bir PDF'ye nasıl dönüştürebilirim


36

Yaklaşık 80 sayfayı gri tonlamalı pdf (resim formatı) olarak taradım. Dosyanın son boyutu yaklaşık 70 MB'dir ve bu çok büyüktür.

Şimdi gri tonlamalı görüntü tabanlı PDF dosyasını basit siyah / beyaz metin tabanlı bir PDF dosyasına dönüştürmek için bir yöntem arıyorum.

Çok sayıda girişimde bulundum, gsancak başarılı olamadım (sadece yüzde birkaç iyileşme). Herhangi bir uzmanın bir fikri varsa, lütfen bana bildirin.


1
Biraz OCR aracına ihtiyacınız var. Tesseract bak ubuntuforums.org/showthread.php?t=880471
Nikita U.

4
PDF görüntülerini olduğu gibi tutmak ve metin eklemekle ilgileniyorsanız, PDF'ye OCR bilgisi ekleme sorusuna bakın .
colan,

Bir sayfalık bir örneğe bir link gönderebilirseniz, çözümleri test edebiliriz ...
Rmano

Bu bir OCR çözümü değil ama askubuntu.com/a/3387/16395 çok yardımcı oluyor (72dpi biraz düşük olsa da, 120 ile daha iyi sonuçlar aldım).
Rmano

YAGF Ubuntu 16.04 ile düzgün çalışıyor mu? Bir görüntü veya pdf dosyası yüklersem, program herhangi bir hata mesajı olmadan iptal olur. 14.04 Ubuntu altında hiçbir sorun yaşamadım. H.Roos
Hubert Roos,

Yanıtlar:


25

gImageReader basit bir GTK + ön uçudur tesseract-ocr.

sudo apt-get install gimagereader tesseract-ocr

almanca metin için üzgünüm


4
Ayrıca, OCR'yi geliştirmek için belgenin dilini , dil kodu ile sudo apt-get install tesseract-ocr-[lang]değiştirerek lang, deuDeutsch poriçin, Portekizce vb.
İle değiştirmelisiniz

1
Bu yazılım çirkin. Kullanılabilirlik sıfırın altında. İşi yapmaya çalışsa da, elektronik tablo benzeri tabloları okuyamıyor. Sadece onları içeren sayfaları özlüyor.
Max Yudin

9

Pdfocr'ı deneyebilirsiniz:

 sudo add-apt-repository ppa:gezakovacs/pdfocr
 sudo apt-get update
 sudo apt-get install pdfocr

Sözdizimini yürütmek

 pdfocr -i input.pdf -o output.pdf

nerede input.pdfgirdi dosyası ve adıdır output.pdfçıkış dosyasının.

Varsayılan olarak Tesseract kullanır. Yüklemek için:

 sudo apt-get install tesseract-ocr

pdfocr gömülü bir metin katmanı oluşturur.


Harika! İlginç bir şekilde, yukarıdaki adımları uyguladıktan sonra, şimdi Adobe Acrobat DC'de aranabilir ancak Önizlemede bulunmaz.
lukeaus

2
Bu depo xenial'i desteklemiyor
Max N

Eğer xenial üzerine wily sürümünü yüklüyse, pdfocr'nin eski bir sürümünü yüklemeyi deneyebilirsiniz. Bunu yapmak için "deb ppa.launchpad.net/gezakovacs/pdfocr/ubuntu wily main" ve "deb-src ppa.launchpad.net/gezakovacs/pdfocr/ubuntu wily main" /etc/apt/sources.list ve ardından ekleyin "sudo apt güncelleme" ve "sudo apt-get install pdfocr"
rafmunozf

2
pdfocr, aşağıdaki işlemi otomatikleştiren bir komut dosyasıdır: 1. PDF dosyasını pdftk kullanarak ayrı sayfalara bölme 2. Pdfimages kullanarak resim verilerini çıkarma 3. Çivi yazısı kullanarak OCR (optik karakter tanıma) kullanarak 4. Tespit edilen metni tekrar içine gömme Hocr2pdf kullanarak PDF dosyası 5. pdftk kullanarak dosyaları birleştirme. ( ubuntuforums.org/showthread.php?t=1456756 adresinden alıntı )
Tommy Trussell

3
pdfsandwich

Yükleme sırasında tesseract ve diğerlerini yükler. Bu kolay bir adım çözümdür ve komut dosyası yazılabilir. hocr2pdfDüz bir metin pdf oluşturmak için kullanabilirsiniz , ancak asal zaman için hazır değil ... henüz. Varsayılan değer tesseract kullanır ve altında "sandviç" pdf: image + text oluşturur.

Gömülü görüntü aşağıdaki komutlarla kaldırılabilir:

gs -o ocr_noIMG.pdf -sDEVICE=pdfwrite -dFILTERIMAGE ocr_image.pdf

ancak metin gizlidir, bu nedenle boş bir sayfaya benziyor.

PDF'yi LibreOffice Drawyüklemek, metni gösterir ve görüntü manuel olarak silinebilir.


Bu gibi not authorizedhatalara yol açan imagemagick / ghostscript güvenlik sorunları hakkında ne yapıyoruz identify-im6.q16: imagemagick - convert: değil yetkili aaaa@ error / construcute.c / ReadImage / 453 - Stack Overflow
nealmcb

1

Ubuntu 14.04'te @AB tarafından önerilen grafik arayüz için aşağıdakileri yapmalısınız:

ubuntu'da ocr tesseract 14.04

veya yine de, depo listesine ekleyin:

sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt-get update

bu işe yaramadan önce:

sudo apt-get install gimagereader


-1

PDF dosyanızda, her sayfayı sağ tıklayın ve görüntü olarak kaydedin (veya tüm sayfaları otomatik olarak yapan bir araç bulun)

Ubuntu yazılım merkezini açın. Tesseract için arayın. Bu, yüklemeniz gereken YAGF'yi bulacaktır. YAGF'da, Dosya -> Resmi Aç'a tıklayın ve resminizi yükleyin. Ardından Dosya -> Tanıma'ya tıklayın.

İlk testimde% 100 doğruluk elde ettim.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.