Pdf'de taranan çok sayıda dokümanım var ve bunları aramak istiyorum. Bunu nasıl yapabilirim?
Aslında pdf OCR ve sonra çıkarılan metni yeni bir pdf içine karıştırmak zorunda. Başarısız bir şekilde farklı çözümler denedim ( PDF'ye OCR bilgisi ekleme bölümünde bulunanlar da dahil olmak üzere ).
- pdfocr (bu bana bu sorunu veriyor: https://github.com/gkovacs/pdfocr/issues/7 )
- pdfsandwich (yazılım merkezi kötü bir paket olduğunu söylüyor ve yüklememeliyim)
- OCRfeeder (yazılım merkezinde) güzel bir şekilde odt'a ihraç eder, ancak pdf'ye aktarırken tepki vermez.
- Gscan2pdf , bu tartışmada bildirildiği gibi tüm siyah (ancak aranabilir) bir görüntüyü dışa aktarır .
- Pdfxchange görüntüleyici 500 sayfanın üzerindeki dosyalarda anında ocr işleyebilir düşünmüyorum.
Farkında olmadığım bir yazılım paketi var mı? Yoksa bunu yapan bir senaryo mu?
pdf2searchablepdf
. Güveniyor tesseract
. İyi çalışıyor. Süper kullanımı kolay. Buraya bakın. askubuntu.com/a/1187881/327339