Optik Karakter Tanıma yazılım önerileri?


15

Görünüşe göre kağıt versiyonlarından taranan bazı e-kitaplar / kağıtlar gördüm, ancak e-kitaplardaki / kağıtlardaki metinler şaşırtıcı bir şekilde kopyalanabilir. Doğrudan taranan sürümlerin bazı Optik Karakter Tanıma yazılımı tarafından işlenmiş olması gerektiğini düşünüyorum.

Bu yüzden önerilen Optik Karakter Tanıma yazılımlarının neler olduğunu bilmek isterim? Özellikle Ubuntu ya da özgür olanlar mı? Windows için olanlar çok daha üstündeyse, lütfen bana da bildirin.

Özellikle taranan bir pdf dosyasını giriş olarak kabul edebilen ve yine de çıktı olarak giriş ile aynı görünen ancak metni kopyalanabilen başka bir pdf dosyası üretebilen OCR'lerle ilgileniyorum.

Teşekkürler ve saygılar!

Lütfen cevap başına bir yazılımı sınırlayın

Yanıtlar:


10

Tesseract OCR Tesseract OCR'ı yükleyin

Orijinal motor 80'li yılların sonlarında HP ve IBM tarafından geliştirildi, ancak kullandığım en iyi Oküler Tanıma Yazılımlarından biri olduğu kanıtlandı. Son zamanlarda motorda birçok güncelleme yapıldı ve piyasadaki en kapsamlı OCR araçlarından biri haline geldi. Diğer tüm OCR araçlarına (metin eşleşmelerinin daha yüksek yüzdelik diliminde bir şeyle) karşı daha fazla puanlama, standart belge türü yüzünü metne kolayca dönüştürebilir.

Aşağıda bir örnek verilmiştir:

tesseract ScannedDocument.png out

Out.txt adlı bir dosya oluşturur


Teşekkürler! Tesseract'ın çıktı pdf'lerini desteklediğini görmedim. Bunu biliyor musun?
Tim

@Tim, doğal olarak Tesseract'ın birçok giriş / çıkış formatını desteklediğine inanmıyorum. Ancak, JanC'nin cevabından bahsedildiği gibi, gscan2pdf OCR için Tesseract kullanır ve adından da anlaşılacağı gibi, PDF çıktısını destekler.
Tim Lytle

OCR'nin Optik Karakter Tanıma anlamına geldiğini unutmayın : en.wikipedia.org/wiki/Optical_character_recognition
Jose Gómez

8

Bunu yapabilmesi gereken bir başka proje de gscan2pdf

sudo apt-get install gscan2pdf

Bu proje ayrıca Tesseract'ın yanı sıra diğer açık kaynaklı OCR araçlarını da kullanabilir.


3

Ubuntu için herhangi bir OCR bilmiyorum, ancak Windows için ihtiyacınız olan özelliklere sahip bir tane var. Bu ABBYY FineReader bu sayfa ama ücretsiz değil


1
FineReader'ı tam Tim'in istediği gibi kullandım (korumalı PDF'leri açmak için)
Extender

3

Repo , CunieForm (ve bunun için Gnome ön ucu olarak YAGF )


Teşekkürler! CunieForm pdf'yi giriş ve çıkış formatları olarak destekliyor mu? Bunu Wikipedia sayfasında ve resmi sayfasında görmedim.
Tim

Belki hayır, ancak PDF'yi TIFF serisine bölmek zaten basit bir iştir :)
Genişletici

3

Gibi görünüyor Decapod projesi PDF'ye yapıyor veya PDF'ye dışa aktarıyor, bu nedenle Tesseract hangi metnin nerede bulunduğunu bilmek için gerekli bilgileri bir şekilde dışa aktarmalıdır.


1

Adobe Acrobat (okuyucu değil, ücretsiz bir uygulama değil), taranan bir PDF belgesini OCR olarak ekleyebilir ve görüntünün üstüne görünmez bir metin katmanı ekleyebilir, böylece metin seçilebilir ve kopyalanabilir. Ne yazık ki bu özelliğin Acrobat'ın kullanıcı arayüzünde tam olarak nerede olduğunu kontrol etmekte kullanışlı değilim, ancak bahsettiğinizle aynı amaç için birkaç kez başarıyla kullanıyorum.

Ve evet, bu bir Linux yazılımı değil, bir Windows yazılımıdır, ancak Wine HQ uygulama veritabanına göre, Wine altında çalışır .


1

En iyi OCR yazılımı genellikle yazıcılara / tarayıcılara / fotokopi makinelerine yerleştirilir. Ofisimdeki Canon IRC 3880, bildiğim tüm masaüstü programlarından daha kolay ve daha hızlı OCR'd pdfs çıkışı sağlayabilir. Kitabı tepsiye koyun (ciltsiz), posta adresinizi seçin, yeşil düğmeye basın.

İnternette bulabileceğiniz OCR pdf'lerinin çoğu benzer makineler için geliyor. Sorun, fiyatın ev kullanımı için çok yüksek olması (yaklaşık 12000 Euro IRC).



1

OCRFeeder

Bir GUI uygulamasıdır.

resim açıklamasını buraya girin

OCR motoru olarak tesseract-ocr veya ocrad kullanır .

İle yükleyebilir miyim Yazılım Merkezi veya birlikte

sudo apt-get install ocrfeeder

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.