Birçok PDF dosyası için toplu OCR (zaten OCRed değil)? [kapalı]


9

Google Desktop Search'ü kullanıyorum (Vista'dayım) ve tüm PDF dosyalarım arşiv klasörümde tanınmıyor. " Taranan resimler içeren PDF dosyaları " dizine eklenmediği için normaldir ( http://desktop.google.com/support/bin/answer.py?hl=tr&answer=90651 )

Bu yüzden, zaten OCRed olmayan PDF dosyalarımın çoğunu OCR yapmak istiyorum. Amacım: Programa bir klasör veriyorum ve alt klasörlerde PDF-OCRed dosyalarına dönüştürülmesi gereken PDF dosyalarını tek başına araştırıyorum.

Not: Geçmişte, bir PDF dosyası şifre korumalıysa, şifreyi başka bir toplu iş (ödeme) aracıyla kaldırdım: verypdf.com "pwdremover" http://www.verypdf.com/pwdremover/

Herhangi bir fikir (çok pahalı değil)?

Ben zaten denedim: o zaman xp üzerinde Finereader 6 pro, ama hiçbir toplu işlemci dahil ... Tesseract http://code.google.com/p/tesseract-ocr/ kullanan Paperfile paperfile.net . Ancak OCR sadece PDF'den metne, PDF'den PDF'e değil! Başka bir proje daha var http://code.google.com/p/ocropus/

Şimdiden teşekkürler ;)


Bir yıl sonra güncelleme: Merhaba, Görünüşe göre sadece ABBYY FineReader (> v. 9.0) Kurumsal ve Site lisansı Sürümlerinde bulunan "ABBYY Hot Folder & Scheduling" yazılımı yardımcı olabilir (denemedim: 600 $!)! Ayrıca Tesseract şimdi windows üzerinde çalışıyor olmalı (şu anda benim için başarı olmadan
!;

Ayrıca, ABBYY FineReader (> v. 9.0) Pro sürümünde bir otomasyon görevi vardır: ana klasörü + alt klasörlerini seçersiniz ve işi yapar. Ama asıl sorun, tüm pdf'leri bir kerede açması (!!), ardından bunları (= ocr) okuyun ve benzersiz bir pdf dosyası kaydetmesidir! Yüzlerce pdf'niz varsa, lanet olası şey benim için çalışmıyor! ; (Çok kötü, ne kabus
!;

Yanıtlar:


6

tl; dr? Nuance PowerPDF Advanced ile başlayın.

OCR yazılımını Aralık 2014'te büyük bir projeye hazırlık olarak değerlendirdim - toplu olarak yapılan milyonlarca İngilizce sayfada OCR. Birkaç yüz dolar harcamak istiyorsanız birçok seçeneğiniz var; Deneme sürümleri, yalnızca birkaç yüz sayfayı dönüştürmeniz gerektiğinde size yardımcı olabilir.

Birçok yazılım paketi tüm girdi dosyalarını yüklemek, OCR yapmak ve karmaşayı tek bir çıktıda birleştirmek ister. IMHO bu çok yanlış, kimin isteyeceği hakkında hiçbir fikrim yok. Gerçek toplu iş arıyordum: her girdi dosyası için bir çıktı dosyası, katılımsız işlem, hiçbir şey için durma, sonunda bana ayrıntılı bir rapor ver. Spoiler uyarısı: Bunu bulamadım.

Alfabetik sırada paketler gelir. Aşağıda gösterilen fiyatlar liste fakat indirimler boldur. Bir tuz tanesi ile doğruluk hakkındaki yorumlarımı alın; girişleriniz benim girişlerimle aynı olmayacak, bu nedenle kilometreniz kesinlikle değişecektir.

ABBYY Finereader 12 Kurumsal: 400 dolar. Toplu iş özelliğine "Görev Yöneticisi" denir ve Araçlar menüsünde bulunur. Alt klasörler de dahil olmak üzere bir klasördeki dosyaları işler; her girdi dosyası için mutlu bir şekilde ayrı bir çıktı dosyası oluşturur. Giriş klasörü hiyerarşisini koruyamaz gibi görünüyor; tüm çıktı dosyaları aynı çıktı klasörüne gitti. Testlerimdeki doğruluk yüksekti, ancak burada listelediğim paketlerin en düşük seviyesi.

Adobe Acrobat XI: 300 dolar. Toplu İş özelliğine, Araçlar (üçüncü araç çubuğu, ana ekranın sağ üst tarafı) tıklanarak bulunabilen "Metin Tanıma / Birden Çok Dosyada" adı verilir. Her bir giriş için bir çıkış olmak üzere alt klasörleri işler. Parola korumalı bir dosya bulursa bir bilgi istemini durdurur ve koyar. Giriş dizini ağacını varsayılan olarak korumaz; çıktıyı girdi ile aynı klasöre yazarak yapabilir. Testlerimde doğruluk oldukça iyiydi.

Nuance OmniPage Ultimate (aka v19): 500 dolar. Toplu iş özelliği "DocuDirect" olarak adlandırılır ve paketle birlikte gelen ayrı bir programdır. Klasörleri ve alt klasörleri işleyecektir; özellikleri doğru seçerseniz, çıktı alanındaki giriş dizini ağacını koruyacaktır. Her giriş için bir çıkış. Korumalı bir dosya için bir şifre durdurur ve talep eder. Görevleri paralel olarak yürütmek için çok çekirdekli işlemcilerden mükemmel şekilde yararlanıyor gibi görünüyor. Doğruluk mükemmeldi . Ancak toplu işlemcinin kararlılığı zayıftır; bulanık bir belge onu asla durduramaz, bir toplu işi kolaylıkla raydan çıkarır.

Nuance PowerPDF Advanced v1.1 (OmniPage Ultimate'ın halefi): 150 dolar. Toplu İş özelliğine "Toplu İş Dönüştürücü" denir ve Gelişmiş İşleme sekmesi altındaki ana programdan erişilebilir. Çıktıdaki giriş yapısını koruyarak klasörleri ve alt klasörleri işler. Her giriş için bir çıkış. Birden fazla çekirdek kullanır, ancak agresif değildir; bunun anlamı, çok çekirdekli bir ana bilgisayarı doyuramıyorum. Doğruluk olduğu excllent malı olarak ya OmniPage'ten daha iyi. Bozuk veya bulanık dosyalar asılmasına neden olmadı. Toplu işlemci , çıkış dizinine bir düz metin günlük dosyası yazar ( şok ).

ReadIris Kurumsal 14: 600 dolar. Toplu işlem özelliği, ana ekrandaki "Dosyalardan" düğmesine tıklanarak ortaya çıkan "Toplu OCR" öğesi tarafından çağrılır. Klasörleri ve alt klasörleri, her girdi için bir çıktı işleyecek ve varsayılan olarak çıktı dizini yapısı girdi dizini yapısıyla eşleşecektir. Geçersiz bir dosyaya kullanıcı girişini durdurur ve talep eder; görüntü korunan tüm korumalı belgeleri daha fazla şikayet etmeden işler. Acrobat ile aynı doğrulukta çok iyiydi.

Masaüstü makinemde (yalnızca çift çekirdekli), seçtiğim girişlerle, her paket bir sayfayı işlemek için en az 3 saniye gerekiyor; bazıları daha fazlasını aldı. Bunu daha fazla çekirdeğe sahip bir makineye indirebilir.

Çok şey var, onlar için planladığınızdan emin olun: geçersiz PDF'ler (bazı paketler durdu), şifre korumalı PDF'ler (bazı paketler durdu, diğerleri yine de dönüşüyor!) Ve döndürülmüş sayfalar (dikey yerine yatay). Toplu işin tamamlanması için çalışmasını istiyorsanız, bu paketler için giriş alanını Çok, Çok Dikkatli bir şekilde hazırlamanız gerekir. PDF'lerden korumayı kaldırmanın bir yolu için GhostScript paketinin PDF'ye yazdır özelliğini inceleyin.

Büyük partilerin çalıştırılması, olmasa bile bellek tükenmesine ve asılı sorunlara yol açabilir (argh - muhtemelen bellek sızıntıları). Herhangi bir otomasyon yapıyorsanız, gerçekte ne olduğu gerçeğinden sonra büyük bir sorun keşfediyor - hangi belgeler işlenemedi, işleme sırasında başarısız oldu, vb. "log dosyası".

Son olarak, ücretli bir müşteri olarak bile destek almak bu kitlesel pazar paketleri için oldukça zordur. Örneğin, bazı büyük girdiler için asılı bir paket (isimsiz kalacak) hakkında saygın bir müşteri destek temsilcisinden şikayet ettim. Vazgeçmeden 36 saat bekledim :). Toplu iş boyutunu 300 belgeyle sınırlamayı tatlı bir şekilde önerdiler. Bu benim için tamamen kabul edilemezdi, ama hey destek biletinin çabucak kapatılmasını sağladı, değil mi? Ve tüm önemli olan bu, değil mi? İç çekmek.

HTH


Merhaba Chrislott, Ayrıntılı cevabınız için teşekkür ederim. ;) Takdir ettim. ;) Biz 4 yıldan fazla bir süredir ve inanılmaz derecede hala hiçbir yazılım, bir klasörde otomatik bir OCR yapmak ve bittikten sonra hataları olan bir günlük dosyası yayınlamak için mükemmel değildir! ... Belki Nuance ile iletişime geçmeye çalışacağım.
Erb

Şimdilik eski bir Acrobat pro sürümü ve birkaç ücretsiz yazılım kullanıyorum. Uzun bir süreç. Gerekirse detaylandırabilirim! Ancak iş mümkün olduğunca iyi yapılır! ;)
Erb

3

Adobe Acrobat bir PDF klasörünü işleyecek ve çoğu Adobe ürünü gibi 30 günlük bir deneme var .
İşlev, 'Belge' menüsünde bulunur:

Belge> OCR Metin Regocnition> OCR kullanarak birden çok dosyadaki metni tanıma

buradan klasörünüzü ekleyebilirsiniz.

Acrobat X'te işlev aşağıdaki gibi kullanılabilir:

Araçlar> Metni Tanıma> Birden Çok Dosyada

Teşekkür ederim "pelms". ;) Zamanın izin verdiği ölçüde deneyeceğim. Finereader.abbyy.com'un önceki denemede sevdiğim şey, birkaç farklı dili tanıyabilmesidir. ;)
Erb

1

Aslında, pdfsandwich geçen yıl içinde güncellendi ve Linux Mint'e kurmak benim için hiç de zor değildi. Verdiği sonuçlar Adobe Acrobat'tan daha düşük, ancak şu ana kadar Linux'ta bulduğum tek uygulanabilir çözüm.


1
Çok ilginç! Bunu bilmiyordum. En.wikisource.org/wiki/… adresinden bir bağlantı ekliyorum ve gelecekte bir noktada test edeceğim. (Aslında başka birçok çözüm var ama burada başlamayacağım!)
Nemo

0

WatchOCR'yi deneyin . Taranan görüntüleri metin aranabilir pdfs'ye dönüştüren açık kaynaklı bir yazılım paketidir. Ücretsiz ve açık kaynaklıdır ve uzaktan yönetim için güzel bir web arayüzüne sahiptir. Doğru yapılandırmayla, tüm paylaşım için smb paylaşımları yoluyla toplu bir pdf / ocr hizmeti oluşturmak için kullanılır. Ne yazık ki sadece linux. Ancak eski bir sunucuya yükleyebilir ve ardından tüm kuruluşunuz bunu kullanabilir.

Aynı şeyi çevrimiçi olarak hiçbir şey yüklemeden yapmak istiyorsanız, PDFCubed.com'u deneyin


WatchOCR ana sayfası arşivlenmiş
Tobias Kienzler
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.