tl; dr? Nuance PowerPDF Advanced ile başlayın.
OCR yazılımını Aralık 2014'te büyük bir projeye hazırlık olarak değerlendirdim - toplu olarak yapılan milyonlarca İngilizce sayfada OCR. Birkaç yüz dolar harcamak istiyorsanız birçok seçeneğiniz var; Deneme sürümleri, yalnızca birkaç yüz sayfayı dönüştürmeniz gerektiğinde size yardımcı olabilir.
Birçok yazılım paketi tüm girdi dosyalarını yüklemek, OCR yapmak ve karmaşayı tek bir çıktıda birleştirmek ister. IMHO bu çok yanlış, kimin isteyeceği hakkında hiçbir fikrim yok. Gerçek toplu iş arıyordum: her girdi dosyası için bir çıktı dosyası, katılımsız işlem, hiçbir şey için durma, sonunda bana ayrıntılı bir rapor ver. Spoiler uyarısı: Bunu bulamadım.
Alfabetik sırada paketler gelir. Aşağıda gösterilen fiyatlar liste fakat indirimler boldur. Bir tuz tanesi ile doğruluk hakkındaki yorumlarımı alın; girişleriniz benim girişlerimle aynı olmayacak, bu nedenle kilometreniz kesinlikle değişecektir.
ABBYY Finereader 12 Kurumsal: 400 dolar. Toplu iş özelliğine "Görev Yöneticisi" denir ve Araçlar menüsünde bulunur. Alt klasörler de dahil olmak üzere bir klasördeki dosyaları işler; her girdi dosyası için mutlu bir şekilde ayrı bir çıktı dosyası oluşturur. Giriş klasörü hiyerarşisini koruyamaz gibi görünüyor; tüm çıktı dosyaları aynı çıktı klasörüne gitti. Testlerimdeki doğruluk yüksekti, ancak burada listelediğim paketlerin en düşük seviyesi.
Adobe Acrobat XI: 300 dolar. Toplu İş özelliğine, Araçlar (üçüncü araç çubuğu, ana ekranın sağ üst tarafı) tıklanarak bulunabilen "Metin Tanıma / Birden Çok Dosyada" adı verilir. Her bir giriş için bir çıkış olmak üzere alt klasörleri işler. Parola korumalı bir dosya bulursa bir bilgi istemini durdurur ve koyar. Giriş dizini ağacını varsayılan olarak korumaz; çıktıyı girdi ile aynı klasöre yazarak yapabilir. Testlerimde doğruluk oldukça iyiydi.
Nuance OmniPage Ultimate (aka v19): 500 dolar. Toplu iş özelliği "DocuDirect" olarak adlandırılır ve paketle birlikte gelen ayrı bir programdır. Klasörleri ve alt klasörleri işleyecektir; özellikleri doğru seçerseniz, çıktı alanındaki giriş dizini ağacını koruyacaktır. Her giriş için bir çıkış. Korumalı bir dosya için bir şifre durdurur ve talep eder. Görevleri paralel olarak yürütmek için çok çekirdekli işlemcilerden mükemmel şekilde yararlanıyor gibi görünüyor. Doğruluk mükemmeldi . Ancak toplu işlemcinin kararlılığı zayıftır; bulanık bir belge onu asla durduramaz, bir toplu işi kolaylıkla raydan çıkarır.
Nuance PowerPDF Advanced v1.1 (OmniPage Ultimate'ın halefi): 150 dolar. Toplu İş özelliğine "Toplu İş Dönüştürücü" denir ve Gelişmiş İşleme sekmesi altındaki ana programdan erişilebilir. Çıktıdaki giriş yapısını koruyarak klasörleri ve alt klasörleri işler. Her giriş için bir çıkış. Birden fazla çekirdek kullanır, ancak agresif değildir; bunun anlamı, çok çekirdekli bir ana bilgisayarı doyuramıyorum. Doğruluk olduğu excllent malı olarak ya OmniPage'ten daha iyi. Bozuk veya bulanık dosyalar asılmasına neden olmadı. Toplu işlemci , çıkış dizinine bir düz metin günlük dosyası yazar ( şok ).
ReadIris Kurumsal 14: 600 dolar. Toplu işlem özelliği, ana ekrandaki "Dosyalardan" düğmesine tıklanarak ortaya çıkan "Toplu OCR" öğesi tarafından çağrılır. Klasörleri ve alt klasörleri, her girdi için bir çıktı işleyecek ve varsayılan olarak çıktı dizini yapısı girdi dizini yapısıyla eşleşecektir. Geçersiz bir dosyaya kullanıcı girişini durdurur ve talep eder; görüntü korunan tüm korumalı belgeleri daha fazla şikayet etmeden işler. Acrobat ile aynı doğrulukta çok iyiydi.
Masaüstü makinemde (yalnızca çift çekirdekli), seçtiğim girişlerle, her paket bir sayfayı işlemek için en az 3 saniye gerekiyor; bazıları daha fazlasını aldı. Bunu daha fazla çekirdeğe sahip bir makineye indirebilir.
Çok şey var, onlar için planladığınızdan emin olun: geçersiz PDF'ler (bazı paketler durdu), şifre korumalı PDF'ler (bazı paketler durdu, diğerleri yine de dönüşüyor!) Ve döndürülmüş sayfalar (dikey yerine yatay). Toplu işin tamamlanması için çalışmasını istiyorsanız, bu paketler için giriş alanını Çok, Çok Dikkatli bir şekilde hazırlamanız gerekir. PDF'lerden korumayı kaldırmanın bir yolu için GhostScript paketinin PDF'ye yazdır özelliğini inceleyin.
Büyük partilerin çalıştırılması, olmasa bile bellek tükenmesine ve asılı sorunlara yol açabilir (argh - muhtemelen bellek sızıntıları). Herhangi bir otomasyon yapıyorsanız, gerçekte ne olduğu gerçeğinden sonra büyük bir sorun keşfediyor - hangi belgeler işlenemedi, işleme sırasında başarısız oldu, vb. "log dosyası".
Son olarak, ücretli bir müşteri olarak bile destek almak bu kitlesel pazar paketleri için oldukça zordur. Örneğin, bazı büyük girdiler için asılı bir paket (isimsiz kalacak) hakkında saygın bir müşteri destek temsilcisinden şikayet ettim. Vazgeçmeden 36 saat bekledim :). Toplu iş boyutunu 300 belgeyle sınırlamayı tatlı bir şekilde önerdiler. Bu benim için tamamen kabul edilemezdi, ama hey destek biletinin çabucak kapatılmasını sağladı, değil mi? Ve tüm önemli olan bu, değil mi? İç çekmek.
HTH