Linux sistemlerinde OCR [kapalı]


14

OCR teknolojisinin her zaman açık kaynak sistemlerinde geride kaldığını gördüm . Bebeklik döneminden bu yana Ocropus projesini de izledim . Duyduğum şeyi denedim, Linux için mevcut en iyi OCR motoru, Tesseract ve iş belgeleri için acımasızca eksik bulduk. Daha ümit verici başka OCR uygulamaları var mı? El yazısını yorumlamak için daha da umutlu olan hedef ne olacak? Bu alandaki * nix sistemlerinde neler mümkündür?


1
Bu yazılımlara taşınmalı mı?
Jeff Schaller

@ Jeff, muhtemelen yedi yaşında olduğu için hayır. O zamandan beri çok şey oldu. Bazıları
OCR'da

Yanıtlar:


4

teserakt

2018 itibariyle, mevcut en iyi açık kaynaklı OCR yazılımı, yeni LSTM sinir ağı OCR modeliyle Tesseract 4 (beta) . OCR performansı, sürüm 3'te kullanılan önceki OCR modelinden çok daha iyidir.

Örnek ( output.pdftaranan almanca bir belge için metin katmanı içeren bir PDF dosyası oluşturun):

$ echo page-*.png > input.list
$ tesseract --oem 1 -l deu input.list output pdf

Tanınan metni stdout'a yazdırın:

$ tesseract --oem 1 -l deu page page-0001.png stdout

Kurulu dilleri listele:

$ tesseract --list-langs

Çok sayıda dil / komut dosyası desteği, indirilebilir eğitimli bir veri kümesi biçiminde mevcuttur , örneğin Fraktur için bir veri kümesi bile vardır.

Yeni LSTM modeliyle Tesseract, OCRopus araştırma projesinden ilham alıyor .

Tesseract sürüm 3, kaliteli giriş görüntülerinde bile nispeten kötü performans gösterir, yani genellikle toz piksellerinde (herhangi bir metinsel bağlamın dışında) tek karakterleri yanlış algılar ve iyi bilinen kelimelerdeki tek karakter hatalarını kolayca ekler.

çiviyazısı

Çivi yazısı OCR performansı o kadar da kötü değil, ancak aktif olarak korunmuyor (2011'in son sürümü, sürüm 1.1) ve kolayca çöküyor ve başka sorunları var:

Düzen algoritmasını şu şekilde devre dışı bırakabilirsiniz:

$ cuneiform --singlecolumn -l ger -f text -o foo.txt image-0001

( -lkaynak belgenin dilini belirtir)

ocrad

$ ocrad -F utf8 image-0001

Metin varsayılan olarak stdout'a yazdırılır.

Bir işletme belgesinde, çivi yazısı / tesseract / gocr'ın yapmadığı altı çizili bir kelimeyi kaçırdı.

GoCRM

$ gocr image-0001

Metin varsayılan olarak stdout'a yazdırılır.

Donanım

Sane , Avision ve Fujitsu gibi birçok otomatik belge besleme (ADF) tarayıcısı için çok iyi bir desteğe sahiptir .

Sane ile birlikte, komutlu scanimagetarama boru hatlarını oluşturmak için kullanabileceğiniz komut satırı programı da gelir (örn. Benim adf2pdf.pykomut dosyam).


Çivi yazısı denedim. Taranan görüntüyü tanımanız gerekiyorsa iyi çalışır (fotoğrafları değil). Yagf'ı GUI olarak kullandım.
Sergei

3

Ben buldum StackOverflow'daki üzerinde benzer bir soru ve Asprise OCR SDK , bağlı biri ticari ürünler, Linux sürümünü sahiptir.


Bu bağlantı soruyu cevaplayabilirken, cevabın önemli kısımlarını buraya eklemek ve bağlantıyı referans olarak sağlamak daha iyidir. Bağlantı verilen sayfa değişirse, yalnızca bağlantı yanıtları geçersiz olabilir. - Yorumdan
Thomas

1
@ Bağlantı, OP tarafından talep edildiği gibi belirli bir aracı işaret ettiğinden, bağlantı tek olası cevaptır. Yalnızca bağlantıya verilen yanıtların tümü kötü değildir. Bu, belirli bir yazılım parçasının adını ve web sayfasına bir bağlantı verir. Bağlantı kopsa bile, yine de adından bulabilmelisiniz.
terdon

1

Birkaç popüler OCR komut satırı aracı vardır:

  • Tesseract ( BeniOku , SSS ) (Python)

    Şunun için de mevcuttur: Tesseract .NET , Tesseract iOS

    1985 ile 1995 yılları arasında HP Labs'de geliştirilen ve şimdi Google'da bulunan bir OCR Motoru. Tesseract muhtemelen mevcut en doğru açık kaynaklı OCR motorudur.

    Kullanımı:

    tesseract [inputFile] [outputFile] [-l optionalLanguageFile] [PathTohOCRConfigFile]
    

    Örnek: Komut satırı / komut dosyası aracılığıyla mevcut PDF'yi aranabilir (OCR) yapma

  • GOCR

    Açık kaynak karakter tanıma. Metnin taranmış görüntülerini tekrar metin dosyalarına dönüştürür. GOCR, farklı işletim sistemleri ve mimarilere taşınmayı çok kolaylaştıran farklı ön uçlarla kullanılabilir. Birçok farklı görüntü formatı açabilir ve kalitesi her geçen gün artmaktadır.

  • OCRopus ™ ( SSS ) (Python, NumPy ve SciPy ile yazılmış)

    Geçmeli düzen analizi, takılabilir karakter tanıma, istatistiksel doğal dil modelleme ve çok dilli yetenekler içeren, belge analizindeki sorunları ele almak için büyük ölçekli makine öğrenimi kullanımına odaklanan OCR sistemi.

    OCRopus motoru iki araştırma projesine dayanmaktadır: 90'lı yılların ortalarında geliştirilen ve ABD Nüfus Sayım bürosu tarafından konuşlandırılan yüksek performanslı bir el yazısı tanıyıcı ve yeni yüksek performanslı yerleşim analizi yöntemleri.

    OCRopus, geliştirmenin Google tarafından desteklendiği ve başlangıçta yüksek verimli, yüksek hacimli belge dönüştürme çabalarına yöneliktir. Diğer birçok uygulama için de mükemmel bir OCR sistemi olmasını bekliyoruz.

  • Tessnet2 (Açık kaynak, OCR, Tesseract, .NET, DOTNET, C #, VB.NET, C ++ / CLI)

    Tesseract bir C ++ açık kaynak kodlu OCR motorudur. Tessnet2, OCR yapmak için çok basit yöntemler ortaya koyan .NET derlemesidir. Tessnet2, Apache 2 lisansı (tesseract gibi) altındadır, yani ticari ürünlerde bulunan, istediğiniz gibi kullanabilirsiniz.

Önerilen diğer seçenekler: Linux için ABBYY CLI OCR , Asprise OCR .

Ayrıca okuyun:

Daha eksiksiz bir liste için şunları kontrol edin: Wikipedia'daki optik karakter tanıma yazılımının listesi .


0

... OCR "sadece karakter tanıma" dan daha fazlasıdır. Görüntü işleme, önişleme - metinleri, görüntüleri, tabloları veya barkodları bulmak için sayfa / düzen analizi. Tanıma için farklı yazı tipleri, boyutlar ve dillerle uğraşmanız gerekir. Bu önemlidir çünkü iyi sonuçlar almak için sözlükler ve dil tanımları kullanmanız gerekir. Son olarak, insanlar metinden daha fazla dışa aktarma seçeneği bekler (ör. XML, RTF veya aranabilir PDF). SDK'lar için bazı ticari seçenekler var, ancak ucuz ve ücretsiz değiller.

Son zamanlarda ABBYY'den Linux için bir CLI OCR buldum . 100 sayfalık ücretsiz deneme sürümü var.


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.