Birçok sayfayı doğrudan PDF'ye tarayın


35

Ubuntu'da birçok sayfayı doğrudan bir PDF dosyasına tarayabilen kullanımı kolay bir program var mı?


Merak ediyorum, Ubuntu'da kullanmak istediğim tarayıcılar / yazıcılar için gerekli özel nitelikler var mı?
JFW

@JFW, çoğu Ubuntu tarayıcısının kullandığı arka uç olan XSane için desteklenen cihazların bir listesi . HP yazıcı / tarayıcı / fotokopi makineleri, arıyorsanız, iyi bir güvenilir seçenek gibi görünüyor.
poolie

Yanıtlar:


38

Basit bir tarama yardımcı programına sahip olma fikri, varsayılan olarak 10.04'ten itibaren (Uygulamalar tool Grafikler ‣ Basit Tarama) yüklenen tarama aracı olan Basit Tarama'nın geliştirilmesinin arkasındaydı . alt metin

İstediğiniz kadar çok sayfayı tarayın ve kaydederken PDF olarak dosya formatını seçin.

Metin tanıma gibi ek özellikler sunan biraz daha az basit bir program da depolarda , gscan2pdf . alt metin


3
Basit Tarama için +1 - çok kolay ve basit, ama çok güçlü - özellikle belirttiğiniz işe uygundur.
8128

5

"Kullanımı kolay" kullanıcının gözünde olmakla birlikte xsanebu işlevi sağlar. İzleyicinin yazdığı yeri seçin (veya CTRL-M'ye basın) ve oradan anlamak çok zor olmamalı.


Şahsen ben xsane'yi kullanmak çok kolay görüyorum ...
8128

Bunca zamandır xsane kullanıyorum. Daha iyi bir araç olabileceği aklıma gelmedi.
Amanda,

3

Ben kullanıyordum xsaneben bu soruyu görene kadar ve az söylemek onun arayüz kendine has kabul ama etkili.

Bu soruyu görünce Ubuntu Lucid / Maverick depolarında yaşayan gscan2pdf'i bulmaya gittim . Aynı tarama (libsane) motorunu kullanıyor ancak kullanıcı arayüzü çok daha fazla Gnome-ish. İyi bir zaman için deneyin:

sudo apt-get install gscan2pdf

3

Simple Scan'in kaydetme iletişim kutusundaki dosya adını myfile.jpg'den myfile.pdf olarak değiştirin .

Ubuntu 14.04, Basit Tarama 3.12.1 üzerinde test edilmiştir.

Bu, aşağı açılır dosya türü "PDF" göstermiyor olsa da, yalnızca "Görüntüler" çalışıyor. Bunun bir UI hatası olduğunu düşünüyorum.

Bu özellik belgelenmiştir Help > Contents:

"Farklı Kaydet" iletişim kutusundan, desteklenen dosya türlerinden birini seçin veya "Ad" alanındaki uzantıyı değiştirin.

Aşağıdaki formatların desteklendiğini söylüyor:

  • PDF
  • JPEG
  • PNG
  • TIFF

İlginç gerçek: Eğer tarama tipini değiştirirseniz ("Tara" dışında açılır) "Metin" olarak değiştirirseniz, varsayılan dosya tipi PDF olur.


1

USB tarayıcıdan sayfaları tarayın. PDF'ye OCR eklemek için tesseract kullanın. Birden fazla sayfayı tek bir PDF'de birleştirin. Kullanım: scan2PDF outputfilename number_of_pages

#!/bin/bash
#scan2PDF
#Requires:      tesseract 3.03 for OCR to PDF
#               scanimage for scanning, I use  1.0.24
#               pdfunite to merge multiple PDF into one, I use 0.26.5
#
#       Use scanimage -L to get a list of devices.
#       e.g. device `genesys:libusb:006:003' is a Canon LiDE 210 flatbed scanner
#       then copy/paste genesys:libusb:006:003 into SCANNER below.
#       play with CONTRAST to get good images
DPI=300
TESS_LANG=nor  #Language that Tesseract uses for OCR
SCANNER=genesys:libusb:006:003  #My USB scanner
CONTRAST=35   #Contrast to remove paper look

FILENAME=$1 #Agrument 1,filename
PAGES=$2    #Argument 2, number of pages

re='^[0-9]+$'  #Check if second argument is a number
if ! [[ ${PAGES} =~ $re ]] ; then
   echo "error: Usage: $0 filename number_of_pages" >&2; exit 1
fi

SCRIPT_NAME=`basename "$0" .sh` #Directory to store temporary files
TMP_DIR=${SCRIPT_NAME}-tmp

if [ -d ${TMP_DIR} ]  #Check if it exists a directory already
then
        echo Error: The directory ${TMP_DIR} exists.
        exit 2
fi
mkdir ${TMP_DIR}  #Make and go to temp dir
cd ${TMP_DIR}

echo Starts Scanimage...
scanimage -d ${SCANNER} --format=tiff --mode Color --resolution ${DPI} -p --contrast ${CONTRAST} --batch-start=1 --batch-count=${PAGES}  --batch-prompt


echo Starts Tesseract OCR

for file in  *.tif  #Goes through every tif file in temp dir
do
        tesseract $file  ${file%.tif} -l ${TESS_LANG} pdf

done

if [ "$PAGES" = "1" ] #How many pages
then
    cp out1.pdf ../${FILENAME}.pdf  #Only one page, just copy the PDF back
else
        for file in *.pdf  #More pages, merge the pages into one PDF and copy back
    do
            pdfuniteargs+=${file} 
            pdfuniteargs+=" "
    done
    pdfunite $pdfuniteargs ../${FILENAME}.pdf
fi
    echo ${FILENAME}.pdf done

rm *                    #Done, clean up
cd ..
rmdir ${TMP_DIR}

çok Linuxoidal bir yöntemdir
rth

1

XSANE kullanmak isteyenler için. Programda Yardım> XSane Dokümanı ile bağlantılı kurulum kılavuzunu okuduğunuzda çok güçlü ve sezgiseldir - onunla ne kadar yapabileceğinizi bilmek. SANE arka ucunuzun düzgün çalışıp çalışmadığını kontrol etmeniz de önemlidir (Arch'a özel değil): https://wiki.archlinux.org/index.php/SANE

Belgeleri bir besleyiciden otomatik olarak taramak istiyorsanız ve XSane'ın ne zaman duracağını (ve çok erken durmadığını) bilip bilmediğini merak ediyorsanız, yalnızca sol üst tarafa (tarama sayısı simgesi) sığacak sayfa sayısından daha büyük bir sayı girin besleyicinizde. Yani, besleyiciniz 10 sayfa alabilirse, 15 (kalınlık değişimini hesaba katarak) girin. Çift taraflı tarayıcınız varsa, bu numarayı ikiye katlayın.

Besleyici bittiğinde, "" Taranan sayfalar: 0 "yazan yeşil bir uyarı üçgeni içeren bir iletişim kutusu görüntülenir. Bu, besleyicinin boş olduğu ve iletişim kutusunu kapatabileceğiniz anlamına gelir." Görüntüleyici "veya" kaydet seçeneğini seçtiyseniz "XSane'in sağ üst köşesinde, dosyaların tümü orada olacak - onları izleyiciden kurtarmayı unutmayın. Artık, kaldığınız yerden devam etmek için aynı noktadan artan sayılarla devam etmek için tekrar taramaya basabilirsiniz veya başlayabilirsiniz Yeni bir proje eklenmiş herhangi bir boş sayfa olmayacak, "Multipage" seçeneğini seçtiyseniz, proje iletişim kutusu tamamlanan tüm taramaları göstermeli ve çok sayfalı PDF veya TIFF veya PostScript olarak kaydetmek için tıklayabilirsiniz.

HTH,

DC

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.