Taranan PDF dosyalarının OCR'sini Acrobat'ın OCR özelliğine benzer bir şekilde otomatikleştirmek için herhangi bir araç var mı? [kapalı]


10

Açık kaynak tercih edilir, ancak gerekli değildir.

Adobe Acrobat 8'im var ve taranmış bir belgenin üzerine görünmez bir OCR'd metni katmanı ekleyebilen OCR özelliğini gerçekten beğendim. Ekranda gördüğünüz orijinal taranan belgedir, ancak sonuç aranabilir.

Aradığım şey bu süreci otomatikleştirmenin bir yoludur. Şu anda taranan dosyaları işlemek ve arşivlemek için kullandığımız birkaç komut dosyası var ve Acrobat ile yapabileceğim gibi benzer bir şekilde OCR yapmak için bu toplu işleme doğrudan ekleyebileceğim bir şey arıyorum.

Tüm öneriler hoş geldiniz, teşekkürler!


1
Not - Kullanıcı kullanıcı sorularını süper kullanıcı üzerinde tutmaya çalışıyorum. Ancak, bu sorudan kaynaklanan uygulama kesinlikle taranan belgeleri işlediğim sunucuda yaşayacak ... bu yüzden bir tossup oldu.
Boden

Yanıtlar:


8

Bunu bir şirket belge arşivleme projesinde uyguladım. Taranan dosya bir tif dosyasıdır (tek sayfa). Sonra tek tif bir hocr dosyası oluşturmak için Çivi yazısı kullanarak . Sonra hocr2pdf kullanarak PDF dosyası çıktı. Birden fazla tarama sayfası varsa, PDF'leri tek bir PDF belgesinde birleştirmek için gs kullanıyorum. Gerçekten iyi çalışıyor, OCR ihtiyaçlarımız için yeterince iyi ve herhangi bir PDF görüntüleyicide aranabilir.


İlginç. Ona bakmak için çok fazla zaman harcamadan önce, ortaya çıkan PDF gömülü metin katmanı ile orijinal taramadan görüntü mü yoksa sadece metin mi?
Boden

Gömülü metin katmanı ile orijinal taramanın görüntüsüdür. Hocr dosyası, html biçimlendirmeleri içeren metin çıktısıdır.
xeon

Mükemmel. Ben bir şans vereceğim. Eğer işe yarayacak gibi görünüyorsa cevabınızı kabul ettiğinizi işaretlerim. Teşekkürler!
Boden

1
Tekrar teşekkürler. Bu iki adamı yüklemek biraz acı ama işe yarıyor. Çivi yazısı ve hocr2pdf çalıştırdığı yeni .tif dosyaları için bir FTP klasörünü kontrol etmek için basit bir komut dosyası yazdım, sonra sonuçları curl kullanarak keskin bir belge kitaplığına yükledi. Böylece insanlar belgeleri doğrudan fotokopi makinesinden arşivleyebilir ve arşivler tamamen metin aranabilir olur. Soru: hocr2pdf dosyasındaki "çözünürlük üzerine yazma" seçeneğinin ne yaptığını biliyor musunuz?
Boden

Sizin için çalıştığına sevindim. -R argümanının yaptığını bilmiyorum.
xeon

1

WatchOCR'a baktınız mı? Http://www.watchocr.com adresinden indirebilirsiniz. Sadece pdfs görüntüsünü izlenen bir klasörden veya ağ paylaşımından metin aranabilir pdfs'ye dönüştüren ücretsiz ve açık kaynaklı bir OCR sunucusudur.


0

Xeon'un cevabının seslerini seviyorum , ancak OCRopus çok eğlenceli geliyor.


Farklı çözümler araştırırken ve test ederken. Ben denedim ve tesseract-ocr ve o zaman PDF için iyi bir yol çıktısı yoktu. Bu özelliklere sahip olup olmadıklarına bakmadım ... tesseract-ocr'un zaman çizelgesinde olduğunu biliyorum ...
xeon
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.