DJVU’yu PDF’ye Dönüştürme


39

Bir DJVU belgesini PDF belgesine dönüştürmek, metin katmanını ve görüntüleri ayırmak ve korumak, aynı zamanda yapıyı DJVU'dan korumak istiyorum. Bunu Ubuntu'da nasıl yapabilirim?

(Daha sonra Calibre'yi ePub / Mobi'ye dönüştürmek için kullanacağım, bu yüzden bu işlem için benim için mükemmel bir Calibre eklentisi varsa!)

Not 1: paketi kullanarak DjView, ya da bir şey dışa Evince dan Baskı, ddjvu vardır değil sadece görüntü kaydetme onlar metin katmanı atın olarak yeterli çözümler.

Not2: DJVULibre kullanmak sadece metin katmanını çıkartıyor gibi görünüyor ve fotoğraflar çıkartılmıyor . Benzer şekilde, "manuel" metnin kopyalanması hem belge yapısını hem de resimleri kaybeder.

Yanıtlar:


37

Yöntem 1

Basitçe DJView kullanın ve PDF olarak dışa aktarın

  1. Goto Sinaptik Paket Yöneticisi
  2. DJview4'ü yükleyin
  3. DJview'i Çalıştır (Uygulamalar - Grafik - DJView4)
  4. .Djvu belgenizi açın
  5. : Menü - Farklı Ver: PDF

Yöntem 2

Djvu dosyasını evince aç.
Yazdır ----> dosyaya yazdır
.ps.

Yöntem 3

  1. Goto Sinaptik Paket Yöneticisi
  2. Yüklemek

    djvulibre-bin libdjvulibre21 okular-extra-backends evince libevdocument3 libevview3

  3. Goto terminali ve yazma

     sudo apt-get install libtiff-tools
    
  4. Djvu dosyasının bulunduğu dizine gidin. Farenin sağ tuşunu tıklayın. “Terminalde Aç” seçeneğine gidin. Üstüne tıkla. Bir terminal açılacaktır.

  5. Bu terminalde yaz

    ddjvu -format=tiff file_name.djvu file_name.tiff
    tiff2pdf -j -o file_name.pdf file_name.tiff
    

Yöntem 4

Ayrıca bir çevrimiçi çevirici var DjVu to PDF converter


@Ashu Bunun resimleri aldığından emin misin?
hayd

Evet, yöntem 1 ve 2 benim için işe yaradı. 3 ve .4 denemedim
Ashu

@Ashu resimleri mi çıkartıyor yoksa tüm sayfayı mı kopyalıyor? (Bu mantıklı mı?)
hayd

Herhangi bir yöntem denedin mi? deneyin ve çalışıp çalışmadığını görmek
Ashu

2
Yok (resimleri veya metni al).
saat

17

İşte bazı yaygın olmayan araçlar gerektiren bir yol:

  1. ocrodjvu
  2. Google tarafından bulunabilecek kendi gereksinimleri olan pdfbeads

DjVu dosyasından gizli metin katmanını çıkarmak için djvu2hocr( ocrodjvupaketten) komutunu kullanabiliriz ( herhangi bir OCR veya benzeri bir şey yapmaz, sadece metin katmanını geometriyle çıkarır), yani:

djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html

sed müdahale, hOCR çıktısındaki sınıf adlarını düzeltir (sadece basit HTML dosyasıdır)

Şimdi DjVu sayfasını TIFF formatına ekleyerek aldık:

ddjvu -format=tiff -page=10 sample.djvu pg10.tif

böylece bu dosyayı çalışma klasöründe bitirelim:

sample.djvu
pg10.html
pg10.tif

Burası devreye pdfbeadsgiriyor ve biz basitçe çalıştırıyoruz:

pdfbeads -o pg10.pdf

daha sonra bu şık program bu klasörün içindeki her şeyi (aynı temel ada sahip HTML ve TIFF dosyaları) önemser ve bazı yan ürünlerle birlikte çıktı PDF dosyası oluşturur:

sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym

hangi DjVu dosyasını girmek için aynıdır ve içinde metin katmanı vardır:

görüntü tanımını buraya girin

Yorum özeti:

Aşağıdaki uzun yorumlarda, DjVu belge sayfasından küçük resimlerin ayrı nesneler olarak gösterilmesi tartışılmaktadır; bu kolay bir şekilde mümkün değildir; çünkü DjVu belge sayfasının kendisi, isteğe bağlı metin katmanlı tek bir resimdir, ayrı nesneler olarak daha küçük resimler hakkında "bilgi" yoktur. DjVu belgesinde renkli görüntüler varsa, bunlar genellikle arka plan katmanına yerleştirilir; Bu durumda, kullanıcı bütün tuvalin yerine sadece görüntü ddjvuçıkarmak için (sadece arka plan katmanını çıkart) ve imagemagick(otomatik kırpma) gibi araçlardan faydalanabilir , ancak PDF çıktısı oluşturmak için otomatik hale getirilemez.

Bir diğer daha sağlıklı, ancak daha yavaş yaklaşım, düzenli OCR GUI araçlarının kullanılmasıdır. gscan2pdf(> 1.0) Linux PC için olası aday olarak önerilmiştir


Bunun tek tek resim verilerini çıkarmayacağını değil, tüm sayfanın resmini çıkardığına inanıyor muyum?
hayd

DjVu dosya yapısına başvururken "bireysel resim verileri" ile ne kastediyorsunuz?
zetah

resimleri belgenin dışına, PDF'nin üzerine yerleştirilen daha küçük resimler olarak
kırpıp kırpamayacağı

DjVu dosya yapısında böyle bir tanım yoktur. Orijinal DjVu belgesindeki örneğin üzerindeki görüntü ön karakter katmanına / maskeye karakter görüntüsü ile birlikte "yerleştirilmiştir" ve açıklandığı gibi çıkarılmış ayrı bir metin katmanı vardır. DjVu belgesinde renkli resim varsa, tüm sayfa boyunca arka plan katmanına yerleştirilir (ortak bileşik DjVu dosyasında). DjVu belge sayfasındaki resimlerin ayrı nesneler olmasını beklemeniz anlaşılabilir olsa da, DjVU belge sayfasına isteğe bağlı metin katmanına sahip tek bir resim olarak bakın, işte budur.
zetah

1
@zetah - yorumlarda vermiş olduğunuz ekstra bilgiler, cevaba gerçekten eklenmelidir çünkü yapıdaki resmin yerleştirilmesi ve ayıklanırken ne bekleyeceğiniz konusunda değerli bilgiler sağlar.
fossfreedom

4

Djvu2pdf var, ancak başka bir yazdırma seçeneği olabilmesi için ghostscript'e dayanıyor. Sana bir göz atmanı öneriyorum, sadece kredi verdiğimden daha akıllıca.

Depoda yok ama yapımcıların sitesinden bir borç indirebilirsiniz : http://0x2a.at/s/projects/djvu2pdf

** Depo dışından bir şeyler indirmek / yüklemekle ilgili zorunlu uyarıyı buraya girin **


1
Korkarım djvu2pdf kullandığı olduğum ddjvu ihracat görüntüleri PDF, ihracat için olmadan metin.
16'da

4

DJVULibre kullanarak , bir metin katmanını terminalkomut aracılığıyla açabilirsiniz :

djvutxt myfile.djvu > myfile-ocr.txt veya djvused myfile.djvu -e 'print-pure-txt' > myfile.txt

(her ikisi de aynı şeyi yapar, ve bulundu burada )

Biçimlendirme biraz çaba gerektirir (birçok simge doğru şekilde dönüştürülmez) ve resimler kurtarılmaz .


Bu, resim içermeyen kitapları DJVU biçiminde dönüştürmek için iyidir, ancak resimli belgeler için değildir. Bu şu anda benim için şu andaki çözüm ve metni çıkarmak için tek çözüm bu. Biçimlendirmeyi ve resimleri korumanın bir yolu çok tercih edilir!
hayd

0

http://www.djvu-pdf.com/ - Bu web sitesini kullanarak djvu'yu pdf'ye dönüştürebilirsiniz.


Ben zaten bu web sitesini gönderdim bro
Ashu

Bu sahte bir site gibi görünüyor. Dönüşümden sonra bu mesajı alıyorum: Üzgünüm, bu dosyayı indiremeyebilirsiniz.
corev

0

En kolay yol: djvu'yu içe aktarmak için gscan2pdf kullanın, ardından tesseract ile OCR yapın ve sonunda pdf olarak kaydedin. Pdf'deki OCR'd metni orijinal djvu'dan biraz farklı olabilir ve dönüşüm biraz zaman alabilir, ancak bu yöntem hiç akıllıca değildir ve işe yarar.


1
Merhaba, bunu daha faydalı bir anwer yapmak için, gscan2pdf ve tesseract'ı nereden edineceğiniz ve kullanacağınız konusunda biraz daha ayrıntılı bilgi verebilir misiniz?
NGRhodes

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.