En iyi, en basit OCR çözümü nedir?


77

Etrafımda bulunduğum, mümkün olan en az güçlükle bir sürü kağıt taramak istiyorum. Bunları Basit Tarama kullanarak görüntülere dönüştürmek, ardından OCR kullanarak bunları metne dönüştürmek istiyorum. Bir düğmeye basarak bana iyi sonuçlar verecek bir GUI ile iyi bir OCR uygulaması var mı?


Bu konuda gerçekten çok fazla çalışmamız gerekiyor. Çok eski / değersiz / ... bir şeyler. Tek gömlek testi yok. Çoğunlukla kopyala yapıştırılmış sonuçlar / listeler burada. Kalite güvencesi yok.
Léo Léopold Hertz 준영

2018’de, şu ana kadar basit olan OCR çözümü, bir çevrimiçi cihaz kullanıyor : Google Vision OCR, Azure OCR veya ücretsiz OCR.space OCR API’sı, hepsi yalnızca yüksek kaliteli OCR sonuçları sağlar - elbette yalnızca uygulama / kullanım durumunuz bir bulut çözümüne izin veriyorsa .
Nic Endo,

Yanıtlar:


70
  • GOCR gelen OCR (Optik Karakter Tanıma) program.It metin dosyaları geri metnin taranmış görüntüleri dönüştürür olduğunu.

  • CLARA bir diğer iyi grafiksel seçenektir.

  • OCRAD gelen bir OCR tek başına bir konsol uygulaması olarak kullanılabilir veya diğer programlara bir arka uç olarak alınabilir olduğunu.

  • Kooka gelen KDE uygulamasıdır ama GOCR ve OCRAD.After Kooka ve OCR programları yükleme gibi gerçek OCR programları yüklemek zorunda ek olarak, gayet iyi çalışıyor, bunun mümkün olabilmesi için de OCR yüklemek konuma Kooka işaret etmek zorunda JPEG'i metne dönüştürün.

  • OCRFeeder gelen bir belge yapı analizi ve optik karakter tanıma sistemidir.

  • Teserakt dan Komut satırı aracıdır ve use.You dil paketi yükleyebilirsiniz için çok basittir tesseract-ocr-eng dan burada .

Bu sayfaya bir göz atın .

Not:
çalıştırmak için teserakt git terminali ve aşağıdakileri yazın

tesseract imagefile.tif outputfile.txt

Tesseract yalnızca bir TIFF dosyasını okuyabilir - eğer bir JPEG veya PDF'niz varsa ya da her neyse, dönüştürmeniz gerekir. Ayrıca, dosya adı uzantısı .tiff olmamalıdır, aksi halde hataları düzeltmelidir.


1
Konuşulan dil İngilizce değilse? başka bir dil için herhangi bir uzantı nedir?
Vassilis

3
@Vassilis: OCR sistemleri dilden bağımsızdır çünkü sözcükleri değil karakterleri tanırlar. Ancak, alfabenizde Latin1 olmayan karakterler (Kiril gibi) varsa, bunları özlüyor olabilir.
OpenNingia

2
@AçıkNingia: Dil, yalnızca latin harfleri kullanan yazı sistemlerinde bile önemli olabilir. OCR'nin belirsiz harfler arasında ayrım yapmasına yardımcı olur.
Frédéric Grosshans

13
Bu tür sorular / cevaplar gerçekten askubuntu'yu karıştırıyor. Kişi “Linux için mevcut tüm OCR uygulamaları nelerdir” değil “En iyi, en basit OCR çözümü” diye sordu. Bu çözüm kabul edilmemeliydi! Gerçekten kafa karıştırıcı ve yararlı değil.
Alin Andrei

1
Şu anki Ubuntu tesseract( Ubuntu 15.10'daki 3.04.00) PNGgiriş dosyalarında sorun yaşamamaktadır . JPGdosyaları kabul etse de, bunlara ek olarak, daha fazla sıkıştırma eseri beklediğinden daha kötü sonuç verir.
Volker Siegel

10

Kullanabileceğiniz birkaç popüler OCR komut satırı aracı var (GUI'leri olup olmadığından emin değilim):

  • Tesseract ( ReadMe , SSS ) (Python)

    Şunun için de mevcuttur: Tesseract .NET , Tesseract iOS

    1985-1995 yılları arasında HP Laboratuarlarında ve şimdi Google'da geliştirilen bir OCR Motoru. Tesseract muhtemelen en doğru açık kaynaklı OCR motorudur.

    Kullanımı:

    tesseract [inputFile] [outputFile] [-l optionalLanguageFile] [PathTohOCRConfigFile]
    
  • GOCR

    Açık kaynaklı karakter tanıma. Metnin taranmış görüntülerini tekrar metin dosyalarına dönüştürür. GOCR farklı ön uçlarla birlikte kullanılabilir; bu da farklı işletim sistemlerine ve mimarilere bağlantı kurmayı çok kolaylaştırır. Birçok farklı görüntü formatını açabilir ve kalitesi günlük olarak iyileştirilmektedir.

  • OCRopus ™ ( SSS ) (Python, NumPy ve SciPy ile yazılmış)

    Takılabilir düzen analizi, takılabilir karakter tanıma, istatistiksel doğal dil modellemesi ve çok dilli yetenekleri içeren belge analizindeki sorunları ele almak için büyük ölçekli makine öğreniminin kullanılmasına odaklanan OCR sistemi.

    OCRopus motoru iki araştırma projesine dayanıyor: 90'lı yılların ortalarında geliştirilen ve ABD Sayım bürosu tarafından konuşlandırılan yüksek performanslı bir el yazısı tanıyıcı ve yeni yüksek performanslı düzen analizi yöntemleri.

    OCRopus, Google tarafından desteklenmektedir ve başlangıçta yüksek verimli, yüksek hacimli belge dönüştürme çalışmaları için tasarlanmıştır. Diğer birçok uygulama için de mükemmel bir OCR sistemi olacağını umuyoruz.

  • Tessnet2 (Açık kaynak, OCR, Tesseract, .NET, DOTNET, C #, VB.NET, C ++ / CLI)

    Tesseract bir C ++ açık kaynaklı OCR motorudur. Tessnet2, OCR yapmak için çok basit yöntemler sergileyen .NET derlemesidir. Tessnet2, Apache 2 lisansı altındadır (tesseract gibi), yani ticari ürünlerde istediğiniz gibi kullanabilirsiniz.

Diğerleri: Linux için ABBYY CLI OCR , Asprise OCR

Daha eksiksiz bir liste için, şunları kontrol edin: Wikipedia'daki optik karakter tanıma yazılımının listesi

Ayrıca bakınız: wanghaisheng/awesome-ocr- GitHub'da gelecek vaat eden OCR kaynaklarının küratörlüğünde bir listesi .


9

Linux akıllı-ocr çözeltisi

yasal uyarı - Bu açık kaynaklı çözümün gelişimi ile yakından bağlantılıyım

Lios, tarayıcıyı veya bir kamerayı kullanarak baskıyı metne dönüştürebilir.

Ayrıca taranmış resimlerden Pdf, Resim veya Görüntüler içeren Klasör gibi diğer kaynaklardan da metin üretebilir.

Görme engelliler için programa toplam erişilebilirlik verilmektedir.

Yakından bağlı olduğum için - geribildirim isterim.


Kullanımla ilgili belgeler nerede? Lios umduğum kadar sezgisel değil.
kodlayıcı

Proje buraya taşındı .
Suzana

Komut satırı üzerinden sunucuda sadece başsız modda çalıştırmak mümkün mü?
Kilitlenme

8

Gscan2PDF

Çok sayfalı PDF veya taranmış belgelerdeki OCR

Bu muhtemelen en kolay yoldur. Gscan2pdf, yalnızca dosyaları taramanıza değil, aynı zamanda dosyaları içe aktarmanıza ve üzerinde OCR gerçekleştirmenize de olanak sağlayan grafik bir araçtır. Gscan2pdf dosyasını buradan Gscan2pdf yükleyin , Ubuntu Software Center'dan yükleyin veya bu komutu bir terminalde çalıştırın:

sudo apt-get install gscan2pdf
  • Gscan2pdf dosyasını çalıştırın
  • Pdf dosyasını içe aktar (Ctrl + O)
  • İsteğe bağlı: Araçlar> Temizle
  • Araçlar> OCR Tasarrufu'nu (Ctrl + S) seçin.

Gscan2PDF özelleştirilebilir OCR motorlarını kullanabilir, varsayılan tesseract-ocr

Uygun dili seçmeyi düşünebilirsiniz. Bu durumda tesseract-ocr-LANGpaketi kurmanız gerekecek LANG, üç harfli ISO 639-2 dil kodu. Şimdi 16.04 deposunda 108 diliniz var.


Bu yazılımla hiçbir şey yapamam. Hiç yeterli algılama yok. Önerilerinden önce uygulamalar hakkında herhangi bir test örneği almak harika olurdu.
Léo Léopold Hertz 준영

gscan2pdf 16.04 için en az Ctrl + i seçenek kısayoluna sahip değil. Bir pdf dosyasını açmak, "çıkartılacak sayfaları" doğru şekilde tanımlar, ancak "tamam" ı seçmek hiçbir şey yapmaz.
user75505, 16:16

3

Pdfocr.rb ile henüz yeni başarı kazandım (16.04 altında) . Bu Ubuntu wiki'de listelenmiştir.

İşte bir ppa ama 16.04 için depo güncellendi değil. Github'un üstündeki yakut senaryo yine de 16.04 ile çalışıyor.

Github'dan indirebilirsiniz. Aşağıdaki paketlerin kurulu olması gerekecektir:

ruby tesseract-ocr pdftk exactimage

sonra pdfocr.rb dosyasını çalıştırılabilir hale getirdi ve çalıştırdı:

./pdfocf.rb -i source.pdf -o output.pdf

İsteğe bağlı olarak -l LANGparametreyi kullanabilirsiniz . Bu durumda tesseract-ocr-LANGpaketi kurmanız gerekecek LANG, üç harfli ISO 639-2 dil kodu. Şimdi 16.04 deposunda 108 diliniz var.


3

En iyi ve en kolay yolu kullanmak pypdfocrpdf değiştirmez kullanmaktır . pypdfocr burada bir python modülü bağlantısıdır.

pypdfocr your_document.pdf

Sonunda your_document_ocr.pdfaranabilir bir metin ile istediğiniz şekilde başka bir olacaktır . Uygulamaya, görüntünün kalitesini değiştirmez. Kaplama metnini ekleyerek dosyanın boyutunu biraz yükseltir.

Komutun GUI'ye ihtiyaç duymaması oldukça kolay olduğunu düşünüyorum. Belki de pypdfocr yüklemek biraz daha ayrıntılı:

sudo apt install tesseract-ocr 
pip install pypdfocr 

Güncelleme 3 Kasım 2018:

pypdfocr2016'dan beri artık desteklenmiyor ve beynimde kalmadığı için bazı sorunlar olduğunu fark ettim. ocrmypdf( modül tanıdık bir iş çıkarır ve şu şekilde kullanılabilir:

ocrmypdf in.pdf out.pdf

Yüklemek:

pip install ocrmypdf

veya

apt install ocrmypdf

Bu, OP'nin bir PDF sandviç değil bir metin dosyası oluşturmak için bir GUI aracı istediğini düşünmeme rağmen, çok ilginç bir araçtır. Proje web sitesini dahil etmek iyi olurdu.
Andrea Lazzarotto

@AndreaLazzarotto Evet gördüm ama komut bu kadar basit olduğundan sanırım birçok insan bunun için terminali kullanabilir. bu yüzden çözümü buraya dahil etmeyi
düşündüm

1
Tesadüf olarak, son zamanlarda "ocrmypdf" yi keşfettim. Kontrol ettin mi? Bu çok hoş. :)
Andrea Lazzarotto,

@AndreaLazzarotto, cevap yazmak isteyebileceğiniz iyi bir alternatif gibi görünüyor;) Nasıl çalıştığını görmek için deneyeceğim :)
Eduard Florinescu


3

Sadece çok iyi çalıştığı ve kesinlikle listede olması gerektiği için:

gimageReader
bir ekran, Örnek:

görüntü tanımını buraya girin

Depoda (18.10'da cevaplandı, ancak uzun zamandır kullanıyor)


GimageReader'ı ilk başlattığımda, bana tesseract için "Dil yok" mesajı verdi. " Tesseract için nasıl yeni bir dil paketi kurabilirim? " Yanıtı engbir seçenek olarak listelenemiyor ... ama çözdüm ! :) sudo apt install tesseract-ocr-engTerminalde çalışan numarayı yaptı. Bunun gimageReader'ın yardım dosyasında ya da github'taki “README” ya da başka bir yerde belgelenmesi iyi olurdu. Belki burası gibi.
Dalı,

1

gscan2pdf, 3 farklı ocr motoru içerir. Programa doğrudan tarayabilir veya pdf'inizi programa alabilirsiniz. Tesseract motorunun harika çalıştığını ve kullanımının çok kolay olduğunu gördüm

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.