Linux için PDF'ye tarama yazılımı?


18

Bir Fujitsu ScanSnap S500 belge tarayıcı kullanarak kağıt belgeleri aranabilir PDF'lere taradığım bir iş akışım var . Birlikte verilen yazılımın büyük bir hayranı değilim, ama kullanımı çok basit: üstüne bir kağıt yığını yerleştirin, yeşil düğmeye basın ve aranabilir bir PDF çıkıyor.

Şimdi, Linux'ta benzer bir şey yapmak istiyorum (Ubuntu 10.10). Tarayıcı kutudan çıkar çıkmaz desteklenir.

Baktım gscan2pdfve XSane:

  • XSane güçlü görünüyor, ancak bir iş akışı çözümü olarak gerçekten uygun değil;
  • gscan2pdf "düğmeye bas, PDF'yi al" idealine biraz daha yakın, ama yine de% 100 orada değil.

Önerebileceğiniz başka bir yazılım (ücretsiz veya başka türlü)?


pdf-cups kullanıyorum, ancak aranabilir metin olmayan bir resim
RobotHumans

1
Gscan2pdf ile '% 100 yok' nedir?
digitxp

@digitxp Herhangi bir ürün için sorunları, beğenileri ve hoşlanmamaları içeren bir çamaşır listesi ile soruyu karıştırmak istemedim. Ancak, sorduğunuzdan beri, gscan2pdf'kağıtsızlık' ile garip eserlerim vardı, OCR çoğunlukla kullanılamazdı (bazı motorlar diğerlerinden daha iyi) ve genel olarak orijinal çözüm kadar aerodinamik değildi. Her neyse, sorumun özü, başka çözümleri denemek ve benim için neyin en iyi olduğunu görmek için başka neler olduğunu görmek.
NPE

@digitxp Önceki yorumumu tekrar okudum ve oldukça olumsuz geliyor. Niyet bu değildi. gscan2pdfaslında aradığım şeye oldukça yakın, ancak orijinal çözümle karşılaştırıldığında ne yazık ki eksik olduğu alanlar var.
NPE

Yanıtlar:


18

İşte bu yılın başlarında araştırırken bulduğum bazı şeyler. Maalesef, sınırlı puanım nedeniyle birden fazla köprü gönderemiyorum, bu nedenle bağlantılar için Google'a ihtiyacınız olacak.

gscan2pdf

Arka uç için çeşitli OCR motorlarını kullanabilen gerçekten iyi bir GUI sistemi. Bu muhtemelen tek dokunuşlu çözümünüzü karşılayacaktır (ve digitxp zaten bahsetti).

Tesseract OCR Motoru

Gscan2pdf ile kullanılabilir.

Ocropus

Kapsamlı bir eğitim olmadan metni tanımadığı için ahtapotla çok uzağa gitmedim . Muhtemelen kitaplar için gerçekten iyi olurdu, ancak faturalar ve benzeri ile benim için iyi çalışmadı. YMMV.

çiviyazısı

Cuneiform ile en iyi başarıyı yakaladım ve aşağıdaki iş akışına benzer komut dosyaları yazarak aranabilir PDF'ler oluşturabildim:

# extract images from scans
# (not shown)

# convert to black-and-white
optimize2bw -n -i nuance-test.png  -o bw.bmp                               

# do the OCR process and generate an hOCR file
cuneiform -l eng -f hocr -o nuance-test.html bw.bmp

# reassemble the original image with the hOCR file to generate a new PDF
hocr2pdf -s -i nuance-test.png -o nuance-test.hocr.pdf < nuance-test.html  

Tam görüntü paketini de kurmanız gerekir.

Çeşitli açık kaynak OCR'ing PDF'nin kullanımı için projeler Cuniform ve hocr2pdf yanı:

  • WatchOCR
  • ArchiVista

Ne bulduğunu bana haber ver!

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.