İşte bazı yaygın olmayan araçlar gerektiren bir yol:
- ocrodjvu
- Google tarafından bulunabilecek kendi gereksinimleri olan pdfbeads
DjVu dosyasından gizli metin katmanını çıkarmak için djvu2hocr
( ocrodjvu
paketten) komutunu kullanabiliriz ( herhangi bir OCR veya benzeri bir şey yapmaz, sadece metin katmanını geometriyle çıkarır), yani:
djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html
sed
müdahale, hOCR çıktısındaki sınıf adlarını düzeltir (sadece basit HTML dosyasıdır)
Şimdi DjVu sayfasını TIFF formatına ekleyerek aldık:
ddjvu -format=tiff -page=10 sample.djvu pg10.tif
böylece bu dosyayı çalışma klasöründe bitirelim:
sample.djvu
pg10.html
pg10.tif
Burası devreye pdfbeads
giriyor ve biz basitçe çalıştırıyoruz:
pdfbeads -o pg10.pdf
daha sonra bu şık program bu klasörün içindeki her şeyi (aynı temel ada sahip HTML ve TIFF dosyaları) önemser ve bazı yan ürünlerle birlikte çıktı PDF dosyası oluşturur:
sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym
hangi DjVu dosyasını girmek için aynıdır ve içinde metin katmanı vardır:
Yorum özeti:
Aşağıdaki uzun yorumlarda, DjVu belge sayfasından küçük resimlerin ayrı nesneler olarak gösterilmesi tartışılmaktadır; bu kolay bir şekilde mümkün değildir; çünkü DjVu belge sayfasının kendisi, isteğe bağlı metin katmanlı tek bir resimdir, ayrı nesneler olarak daha küçük resimler hakkında "bilgi" yoktur. DjVu belgesinde renkli görüntüler varsa, bunlar genellikle arka plan katmanına yerleştirilir; Bu durumda, kullanıcı bütün tuvalin yerine sadece görüntü ddjvu
çıkarmak için (sadece arka plan katmanını çıkart) ve imagemagick
(otomatik kırpma) gibi araçlardan faydalanabilir , ancak PDF çıktısı oluşturmak için otomatik hale getirilemez.
Bir diğer daha sağlıklı, ancak daha yavaş yaklaşım, düzenli OCR GUI araçlarının kullanılmasıdır. gscan2pdf
(> 1.0) Linux PC için olası aday olarak önerilmiştir