Taranan bir belgeden metin ayıklama

10

Taranan bir belgeden metin seçmenin herhangi bir yolu var mı? (output bir jpg) Ubuntu böyle bir görevi yerine getirmek için ne tür araçlar sunuyor? Aynı şeyi yapmak için önceden derlenmiş yazılım ikili dosyaları yerine kullanabileceğim herhangi bir kitaplık var mı? Imagemagick kullanarak bir .pdf dönüştürmek ve sonra açıkçası işe yaramadı metni seçmeye çalıştım.

pdf scanning document

— Dananjaya
kaynak

9

Bu tür prosedürün adı OCR'dir (Optik Karakter Tanıma). Bu bağlantı ayrıca birkaç seçenek sunar:

gocr - Bir komut satırı OCR
fuzzyocr - resim eklerini kontrol etmek için spamassassin eklentisi
libhocr0 - İbranice OCR
ocrad - Optik Karakter Tanıma programı
ocrfeeder - Belge düzeni analizi ve optik karakter tanıma sistemi
ahtapot - belge analizi ve OCR sistemi
tesseract-ocr
çivi yazısı - çok dilli OCR sistemi

Ve Tesseract'ın ( çok eski bir öğretici ) bunların daha iyi bir seçenek olduğunu gösteriyor. Bu yüzden bir deneyin.

— Rinzwind
kaynak

3

Bir süre önce Ubuntu'daki çeşitli OCR paketlerini değerlendirdi, Tesseract'ın bunlardan en az kötü olduğunu gördü (ancak yeterince kötü) ve OCRing için bir sarmalayıcı komut dosyası yazdı (Tesseract TIFF gibi belirsiz giriş formatları istediğinden). İşte benim ~/bin/ocr:

#!/bin/sh
# usage: ocr filename.jpg
if test -z "$1"; then
    echo "usage: ocr filename.jpg [...]"
    echo "needs imagemagick and tesseract-ocr"
    echo "if tesseract fails, check if you've got tesseract-ocr-eng installed"
fi
tmpdir="$(mktemp -d)"
for fn in "$@"; do
  convert "$fn" "$tmpdir/page.tif"
  tesseract "$tmpdir/page.tif" "$tmpdir/page" 2>&1 | grep -v '^Tesseract Open Source OCR Engine$'
  cat "$tmpdir/page.txt"
  cp -i "$tmpdir/page.txt" "${fn%.jpg}.txt"
  rm "$tmpdir/page.tif" "$tmpdir/page.txt"
done
rm -r "$tmpdir"

Görüntülerin GIMP ile önceden işlenmesi (Eşik aracını kullanarak S&B'ye dönüştürme) çok yardımcı oldu.

Umarım o zamandan beri işler düzelir. Son zamanlarda blog yazılarında OCR Feeder adını gördüm, denemek isterim.

— Marius Gedminas
kaynak

2

Tesseract-ocr paketi komut satırıdır. GUI içeren bir program istiyorsanız, "gscan2pdf" kullanıyorum ve programı Ubuntu Yazılım Merkezi'nde bulabilirsiniz.

Gscan2pdf'de yapmanız gereken tek şey, üst taraftaki küçük tarama simgesini tıklamaktır. Sanırım iki ya da üç seçenek sunuyor, çok iyi olmayan GOCR ve takdire şayan çalışan Tesseract. Tesseract'ı seçin ve bu noktada çözünürlük ayarlarını bulmak için uygun sekmeyi tıklamanız gerekir. En iyi bahsin 300 hatta 600 ve Tesseract iyi olacak.

Kötü taranmış, eğri veya eski belgeler iyi dönüştürülemiyor. İyi şanslar!

Not: Tesseract'ın sadece TIFF görüntülerini okuyabildiğini okumaya devam ediyorum. Benim için durum böyle değil. JPG veya PNG'yi de içe aktarabilirim.

PPS ... düzenlemeler için üzgünüm! OCRFeeder'ı yazılım merkezinde de deneyebilirsiniz. Henüz denemedim.

— I Heart Ubuntu
kaynak

1

Bunu buldum, buna Tesseract OCR deniyor, umarım sizin için yararlı olabilir.

http://linuxappfinder.com/package/tesseract-ocr

— scouser73
kaynak

0

Linux Mint 17.2 x32 Tarçın var. Muhtemelen bu adımlar Ubuntu 14.04 x32'de de işe yarar.

Tesseract OCR'ı yükleyin sudo apt-get install -y tesseract-ocr tesseract-ocr-eng Ek paketler yükleyerek diğer dilleri ekleyebilirsiniz. Bu ekran görüntüsü synaptic'ten: Synaptic'teki Tesseract dil paketleri

Tesseract'ı kullanma

SEÇENEK 1 - komut satırı açık terminali ile görüntü dosyalarını (jpg, png) sakladığınız klasöre gidin ve komutu çalıştırın:

a) tüm görüntü dosyalarını metne dönüştürmek

for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" text; done

Tüm metin dosyalarını tek bir dosyada birleştirmek için bir komut çalıştırın cat *.txt >> all.txt

b) tüm resim dosyalarını hocr dosyalarına dönüştürmek (Firefox ile açın)

for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" hocr; done

SEÇENEK 2 - GUI tarafından

a) gImageReader'ı kurun ve kullanın

sudo add-apt-repository -y ppa:sandromani/gimagereader
sudo apt-get update
sudo apt-get install -y gimagereader

b) İkinci uygulama VietOCR'dur. Gerçek sürüm 4.0, bu yüzden indir VietOCR-4.0.zip

Dosyaları açın ve Java ile VietOCR.jar dosyasını açın:

Java ile VietOCR uygulamasını açma Java yüklü değilse, depodan yükleyebilir veya resmi Oracle Java 8 yükleyebilirsiniz. Ubuntu 14.04'te Oracle Java 8'i yükleme adımları

sudo add-apt-repository ppa:webupd8team/java
sudo apt-get update
sudo apt-get install oracle-java8-installer
sudo apt-get install oracle-java8-set-default

Ben VietOCR öneririz, çünkü OCR pdf dosyalarını sağlar, toplu dönüştürme de bir seçenektir.

— anthony0013
kaynak