Bir pdf dosyasını OCR'a ve pdf içinde saklanan metni almak nasıl?


23

ilk önce, bunun daha önce istenmiş olması için özür dilerim - bir süredir mevcut gönderileri aradım, ancak destek bulamadım.

Fedora için çok sayfalı aranamayan bir pdf için OCR yapma ve bu pdf'i resmin üstündeki metin katmanını içeren yeni bir pdf dosyasına dönüştürme ile ilgili bir çözümle ilgileniyorum. Mac OSX veya Windows'ta Adobe Acrobat'ı kullanabiliriz, ancak Linux'ta, özellikle de Fedora'da?

https://snippets.webaware.com.au/howto/pdf-ocr-linux/ bir çözümü tarif ediyor gibi görünüyor - ama ne yazık ki tam görüntüyü alırken çoktan kayboldum.


Güzel pdfocr betiği ile ilgili bir sorun var, tavsiye edeceğiniz sayfanın önerdiği: temelde kullanımdan kaldırılan pdftk'e dayanıyor (iki nedenden dolayı, libgcj ve iText5 + 'ya olan bağımlılığı). Yani yine de farklı bir çözüme ihtiyaç var ...
Maxim

Yanıtlar:


24

En iyi ve en kolay yolu kullanmak pypdfocrpdf değiştirmez kullanmaktır . pypdfocr burada bir python modülü bağlantısıdır.

pypdfocr your_document.pdf

Sonunda your_document_ocr.pdfaranabilir bir metin ile istediğiniz şekilde başka bir olacaktır . Uygulamaya, görüntünün kalitesini değiştirmez. Kaplama metnini ekleyerek dosyanın boyutunu biraz yükseltir.

Komutun GUI'ye ihtiyaç duymaması oldukça kolay olduğunu düşünüyorum. Belki de pypdfocr yüklemek biraz daha ayrıntılı:

sudo dnf -y install tesseract 
pip install pypdfocr 

Güncelleme 3 Kasım 2018:

pypdfocr2016'dan beri artık desteklenmiyor ve beynimde kalmadığı için bazı sorunlar olduğunu fark ettim. ocrmypdf( modül ) benzer bir iş yapar ve bu şekilde kullanılabilir:

ocrmypdf in.pdf out.pdf

Yüklemek:

pip install ocrmypdf

veya

sudo apt install ocrmypdf  #ubuntu
sudo dnf -y install ocrmypdf #fedora

neden ubuntu'da (apt kullanarak) ocrmypdf yüklüyorsunuz, ancak tessaract'i fedora da yüklüyorsunuz? Ben bir yazım hatası yaptığını düşünüyorum
iüridiniz

@iuridiniz düzeltildi.
Kayıp

8

Tesseract'ın artık aranabilir pdfs'ler üretebileceğini öğrendikten sonra, betiğin sandviçini buldum: http://www.tobias-elze.de/pdfsandwich/

bağımlılıkları yükledikten sonra (bu tam liste olmayabilir)

sudo dnf install svn ocaml unpaper tesseract

Kaynağın derlenmesi için senaryo kılavuzunu takip ettim.

Kaynaklardan derleme

pdfsandwich açık kaynaklı yazılımdır (lisans: GPL). Kaynakları proje web sitesindeki indirme alanından .tar.bz2 paketi olarak indirebilir veya alt sürümlere göre kontrol edebilirsiniz:

svn checkout svn://svn.code.sf.net/p/pdfsandwich/code/trunk/src pdfsandwich

OCaml sisteminizde kurulu ise, aşağıdaki gibi derleyip kurabilirsiniz:

cd pdfsandwich
./configure
make
sudo make install

ve bu şimdi koşmama izin veriyor

sandwich multipaged-non-searchable.pdf

aranabilir bir pdf ile sonuçlanır.


Bir ilgilidir ama ayrı soru için, bu bir bina, bkz unix.stackexchange.com/questions/306051/...
ingli

1
FWIW: pdfsandwich, Ubuntu'nun uygun paket havuzunda da mevcuttur. Diğer dağıtımlar da olabilir.
Laurence Gonsalves


Sadece rastladı fedoramagazine.org/4-cool-new-projects-try-copr-october-2018 paketleri pdfsandwich o fötr için copr paketi gösteren
ingli


1

Ben de aynı problem vardı bu yüzden hafta sonları bunu yazdım. Bi dene; harika çalışıyor! Etrafında basit bir sarıcı tesseract. O kullanır pdftoppmo zaman kullanır, TIFF dosyaları bir demet haline PDF dönüştürmek için tesseractüzerlerinde OCR (Optical Character Recognition) gerçekleştirmek ve çıktı olarak aranabilir PDF üretmek. Komut tamamlandığında tüm geçici geçici dosyalar otomatik olarak silinir.

Kaynak kodu: https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF

Yüklemek ve kullanmak için talimatlar pdf2searchablepdf:

Ubuntu 18.04 tarihinde 11 Kasım 2019'da test edilmiştir.

yükleyin:

git clone https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF.git
./PDF2SearchablePDF/install.sh

sudo apt update
sudo apt install tesseract-ocr

kullanın:

pdf2searchablepdf mypdf.pdf

Artık aranabilir metin içeren mypdf_searchable.pdf adlı bir pdf’iniz olacak !

Bitti. Şu anda tamamen bash dilinde yazıldığı için hiçbir python bağımlılığı yoktur.

Referanslar veya İlgili Kaynaklar:

  1. PDF2SearchablePDF : https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF
  2. /ubuntu/473843/how-to-turn-a-pdf-into-a-text-searchable-pdf/1187881#1187881
  3. /ubuntu/16268/whats-the-best-simplest-ocr-solution
  4. /ubuntu/150100/extracting-embedded-images-from-a-pdf/1187844#1187844
  5. pdfsandwich : Yeni keşfettiğim alternatif yazılım sarmalayıcı, bu da kontrol etmeye değer! http://www.tobias-elze.de/pdfsandwich/
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.