15

Görünüşe göre kağıt versiyonlarından taranan bazı e-kitaplar / kağıtlar gördüm, ancak e-kitaplardaki / kağıtlardaki metinler şaşırtıcı bir şekilde kopyalanabilir. Doğrudan taranan sürümlerin bazı Optik Karakter Tanıma yazılımı tarafından işlenmiş olması gerektiğini düşünüyorum.

Bu yüzden önerilen Optik Karakter Tanıma yazılımlarının neler olduğunu bilmek isterim? Özellikle Ubuntu ya da özgür olanlar mı? Windows için olanlar çok daha üstündeyse, lütfen bana da bildirin.

Özellikle taranan bir pdf dosyasını giriş olarak kabul edebilen ve yine de çıktı olarak giriş ile aynı görünen ancak metni kopyalanabilen başka bir pdf dosyası üretebilen OCR'lerle ilgileniyorum.

Teşekkürler ve saygılar!

Lütfen cevap başına bir yazılımı sınırlayın

software-recommendation

— Tim
kaynak

10

Tesseract OCR

Orijinal motor 80'li yılların sonlarında HP ve IBM tarafından geliştirildi, ancak kullandığım en iyi Oküler Tanıma Yazılımlarından biri olduğu kanıtlandı. Son zamanlarda motorda birçok güncelleme yapıldı ve piyasadaki en kapsamlı OCR araçlarından biri haline geldi. Diğer tüm OCR araçlarına (metin eşleşmelerinin daha yüksek yüzdelik diliminde bir şeyle) karşı daha fazla puanlama, standart belge türü yüzünü metne kolayca dönüştürebilir.

Aşağıda bir örnek verilmiştir:

tesseract ScannedDocument.png out

Out.txt adlı bir dosya oluşturur

— Dennis
kaynak

Teşekkürler! Tesseract'ın çıktı pdf'lerini desteklediğini görmedim. Bunu biliyor musun?

— Tim

@Tim, doğal olarak Tesseract'ın birçok giriş / çıkış formatını desteklediğine inanmıyorum. Ancak, JanC'nin cevabından bahsedildiği gibi, gscan2pdf OCR için Tesseract kullanır ve adından da anlaşılacağı gibi, PDF çıktısını destekler.

— Tim Lytle

OCR'nin Optik Karakter Tanıma anlamına geldiğini unutmayın : en.wikipedia.org/wiki/Optical_character_recognition

— Jose Gómez

8

Bunu yapabilmesi gereken bir başka proje de gscan2pdf

sudo apt-get install gscan2pdf

Bu proje ayrıca Tesseract'ın yanı sıra diğer açık kaynaklı OCR araçlarını da kullanabilir.

— Mark Kirby
kaynak

3

Ubuntu için herhangi bir OCR bilmiyorum, ancak Windows için ihtiyacınız olan özelliklere sahip bir tane var. Bu ABBYY FineReader bu sayfa ama ücretsiz değil

— vicmp3
kaynak

1

FineReader'ı tam Tim'in istediği gibi kullandım (korumalı PDF'leri açmak için)

— Extender

3

Repo , CunieForm (ve bunun için Gnome ön ucu olarak YAGF )

— Extender
kaynak

Teşekkürler! CunieForm pdf'yi giriş ve çıkış formatları olarak destekliyor mu? Bunu Wikipedia sayfasında ve resmi sayfasında görmedim.

— Tim

Belki hayır, ancak PDF'yi TIFF serisine bölmek zaten basit bir iştir :)

— Genişletici

3

Gibi görünüyor Decapod projesi PDF'ye yapıyor veya PDF'ye dışa aktarıyor, bu nedenle Tesseract hangi metnin nerede bulunduğunu bilmek için gerekli bilgileri bir şekilde dışa aktarmalıdır.

— Janc
kaynak

1

Adobe Acrobat (okuyucu değil, ücretsiz bir uygulama değil), taranan bir PDF belgesini OCR olarak ekleyebilir ve görüntünün üstüne görünmez bir metin katmanı ekleyebilir, böylece metin seçilebilir ve kopyalanabilir. Ne yazık ki bu özelliğin Acrobat'ın kullanıcı arayüzünde tam olarak nerede olduğunu kontrol etmekte kullanışlı değilim, ancak bahsettiğinizle aynı amaç için birkaç kez başarıyla kullanıyorum.

Ve evet, bu bir Linux yazılımı değil, bir Windows yazılımıdır, ancak Wine HQ uygulama veritabanına göre, Wine altında çalışır .

— Serge Broslavsky
kaynak

1

En iyi OCR yazılımı genellikle yazıcılara / tarayıcılara / fotokopi makinelerine yerleştirilir. Ofisimdeki Canon IRC 3880, bildiğim tüm masaüstü programlarından daha kolay ve daha hızlı OCR'd pdfs çıkışı sağlayabilir. Kitabı tepsiye koyun (ciltsiz), posta adresinizi seçin, yeşil düğmeye basın.

İnternette bulabileceğiniz OCR pdf'lerinin çoğu benzer makineler için geliyor. Sorun, fiyatın ev kullanımı için çok yüksek olması (yaklaşık 12000 Euro IRC).

— Javier Rivera
kaynak

1

En sevdiğim ücretsiz, çevrimiçi OCR yazılımı Ricoh Innovations tarafından sunulmaktadır. Bu bir beta programdır, ancak oldukça iyi çalıştığını düşünüyorum. Şuraya göz atın: http://beta.rii.ricoh.com/betalabs/content/document-conversion

— Natalie
kaynak

1

OCRFeeder

Bir GUI uygulamasıdır.

resim açıklamasını buraya girin

OCR motoru olarak tesseract-ocr veya ocrad kullanır .

İle yükleyebilir miyim Yazılım Merkezi veya birlikte

sudo apt-get install ocrfeeder

— user224082
kaynak

0

FineReader'ın çevrimiçi bir sürümü de var. PDF'leri giriş biçimi olarak işleyebildiğini iddia ediyor --- http://finereader.abbyyonline.com/en/Help/Faq/

— texnic
kaynak

Optik Karakter Tanıma yazılım önerileri?

Tesseract OCR