DJVU’yu PDF’ye Dönüştürme

39

Bir DJVU belgesini PDF belgesine dönüştürmek, metin katmanını ve görüntüleri ayırmak ve korumak, aynı zamanda yapıyı DJVU'dan korumak istiyorum. Bunu Ubuntu'da nasıl yapabilirim?

(Daha sonra Calibre'yi ePub / Mobi'ye dönüştürmek için kullanacağım, bu yüzden bu işlem için benim için mükemmel bir Calibre eklentisi varsa!)

Not 1: paketi kullanarak DjView, ya da bir şey dışa Evince dan Baskı, ddjvu vardır değil sadece görüntü kaydetme onlar metin katmanı atın olarak yeterli çözümler.

Not2: DJVULibre kullanmak sadece metin katmanını çıkartıyor gibi görünüyor ve fotoğraflar çıkartılmıyor . Benzer şekilde, "manuel" metnin kopyalanması hem belge yapısını hem de resimleri kaybeder.

— Hayd
kaynak

37

Yöntem 1

Basitçe DJView kullanın ve PDF olarak dışa aktarın

Goto Sinaptik Paket Yöneticisi
DJview4'ü yükleyin
DJview'i Çalıştır (Uygulamalar - Grafik - DJView4)
.Djvu belgenizi açın
: Menü - Farklı Ver: PDF

Yöntem 2

Djvu dosyasını evince aç.
Yazdır ----> dosyaya yazdır
.ps.

Yöntem 3

Goto Sinaptik Paket Yöneticisi
Yüklemek

djvulibre-bin libdjvulibre21 okular-extra-backends evince libevdocument3 libevview3
Goto terminali ve yazma
```
 sudo apt-get install libtiff-tools
```
Djvu dosyasının bulunduğu dizine gidin. Farenin sağ tuşunu tıklayın. “Terminalde Aç” seçeneğine gidin. Üstüne tıkla. Bir terminal açılacaktır.

Bu terminalde yaz

ddjvu -format=tiff file_name.djvu file_name.tiff
tiff2pdf -j -o file_name.pdf file_name.tiff

Yöntem 4

Ayrıca bir çevrimiçi çevirici var DjVu to PDF converter

— Ashu
kaynak

@Ashu Bunun resimleri aldığından emin misin?

— hayd

Evet, yöntem 1 ve 2 benim için işe yaradı. 3 ve .4 denemedim

— Ashu

@Ashu resimleri mi çıkartıyor yoksa tüm sayfayı mı kopyalıyor? (Bu mantıklı mı?)

— hayd

Herhangi bir yöntem denedin mi? deneyin ve çalışıp çalışmadığını görmek

— Ashu

2

Yok (resimleri veya metni al).

— saat

17

İşte bazı yaygın olmayan araçlar gerektiren bir yol:

ocrodjvu
Google tarafından bulunabilecek kendi gereksinimleri olan pdfbeads

DjVu dosyasından gizli metin katmanını çıkarmak için djvu2hocr( ocrodjvupaketten) komutunu kullanabiliriz ( herhangi bir OCR veya benzeri bir şey yapmaz, sadece metin katmanını geometriyle çıkarır), yani:

djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html

sed müdahale, hOCR çıktısındaki sınıf adlarını düzeltir (sadece basit HTML dosyasıdır)

Şimdi DjVu sayfasını TIFF formatına ekleyerek aldık:

ddjvu -format=tiff -page=10 sample.djvu pg10.tif

böylece bu dosyayı çalışma klasöründe bitirelim:

sample.djvu
pg10.html
pg10.tif

Burası devreye pdfbeadsgiriyor ve biz basitçe çalıştırıyoruz:

pdfbeads -o pg10.pdf

daha sonra bu şık program bu klasörün içindeki her şeyi (aynı temel ada sahip HTML ve TIFF dosyaları) önemser ve bazı yan ürünlerle birlikte çıktı PDF dosyası oluşturur:

sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym

hangi DjVu dosyasını girmek için aynıdır ve içinde metin katmanı vardır:

görüntü tanımını buraya girin

Yorum özeti:

Aşağıdaki uzun yorumlarda, DjVu belge sayfasından küçük resimlerin ayrı nesneler olarak gösterilmesi tartışılmaktadır; bu kolay bir şekilde mümkün değildir; çünkü DjVu belge sayfasının kendisi, isteğe bağlı metin katmanlı tek bir resimdir, ayrı nesneler olarak daha küçük resimler hakkında "bilgi" yoktur. DjVu belgesinde renkli görüntüler varsa, bunlar genellikle arka plan katmanına yerleştirilir; Bu durumda, kullanıcı bütün tuvalin yerine sadece görüntü ddjvuçıkarmak için (sadece arka plan katmanını çıkart) ve imagemagick(otomatik kırpma) gibi araçlardan faydalanabilir , ancak PDF çıktısı oluşturmak için otomatik hale getirilemez.

Bir diğer daha sağlıklı, ancak daha yavaş yaklaşım, düzenli OCR GUI araçlarının kullanılmasıdır. gscan2pdf(> 1.0) Linux PC için olası aday olarak önerilmiştir

— zetah
kaynak

Bunun tek tek resim verilerini çıkarmayacağını değil, tüm sayfanın resmini çıkardığına inanıyor muyum?

— hayd

DjVu dosya yapısına başvururken "bireysel resim verileri" ile ne kastediyorsunuz?

— zetah

resimleri belgenin dışına, PDF'nin üzerine yerleştirilen daha küçük resimler olarak

— kırpıp kırpamayacağı

DjVu dosya yapısında böyle bir tanım yoktur. Orijinal DjVu belgesindeki örneğin üzerindeki görüntü ön karakter katmanına / maskeye karakter görüntüsü ile birlikte "yerleştirilmiştir" ve açıklandığı gibi çıkarılmış ayrı bir metin katmanı vardır. DjVu belgesinde renkli resim varsa, tüm sayfa boyunca arka plan katmanına yerleştirilir (ortak bileşik DjVu dosyasında). DjVu belge sayfasındaki resimlerin ayrı nesneler olmasını beklemeniz anlaşılabilir olsa da, DjVU belge sayfasına isteğe bağlı metin katmanına sahip tek bir resim olarak bakın, işte budur.

— zetah

1

@zetah - yorumlarda vermiş olduğunuz ekstra bilgiler, cevaba gerçekten eklenmelidir çünkü yapıdaki resmin yerleştirilmesi ve ayıklanırken ne bekleyeceğiniz konusunda değerli bilgiler sağlar.

— fossfreedom

4

Djvu2pdf var, ancak başka bir yazdırma seçeneği olabilmesi için ghostscript'e dayanıyor. Sana bir göz atmanı öneriyorum, sadece kredi verdiğimden daha akıllıca.

Depoda yok ama yapımcıların sitesinden bir borç indirebilirsiniz : http://0x2a.at/s/projects/djvu2pdf

** Depo dışından bir şeyler indirmek / yüklemekle ilgili zorunlu uyarıyı buraya girin **

— Oli
kaynak

1

Korkarım djvu2pdf kullandığı olduğum ddjvu ihracat görüntüleri PDF, ihracat için olmadan metin.

— 16'da

4

DJVULibre kullanarak , bir metin katmanını terminalkomut aracılığıyla açabilirsiniz :

djvutxt myfile.djvu > myfile-ocr.txt veya djvused myfile.djvu -e 'print-pure-txt' > myfile.txt

(her ikisi de aynı şeyi yapar, ve bulundu burada )

Biçimlendirme biraz çaba gerektirir (birçok simge doğru şekilde dönüştürülmez) ve resimler kurtarılmaz .

— Hayd
kaynak

Bu, resim içermeyen kitapları DJVU biçiminde dönüştürmek için iyidir, ancak resimli belgeler için değildir. Bu şu anda benim için şu andaki çözüm ve metni çıkarmak için tek çözüm bu. Biçimlendirmeyi ve resimleri korumanın bir yolu çok tercih edilir!

— hayd

0

http://www.djvu-pdf.com/ - Bu web sitesini kullanarak djvu'yu pdf'ye dönüştürebilirsiniz.

— Meraklı Çırak
kaynak

Ben zaten bu web sitesini gönderdim bro

— Ashu

Bu sahte bir site gibi görünüyor. Dönüşümden sonra bu mesajı alıyorum: Üzgünüm, bu dosyayı indiremeyebilirsiniz.

— corev

0

En kolay yol: djvu'yu içe aktarmak için gscan2pdf kullanın, ardından tesseract ile OCR yapın ve sonunda pdf olarak kaydedin. Pdf'deki OCR'd metni orijinal djvu'dan biraz farklı olabilir ve dönüşüm biraz zaman alabilir, ancak bu yöntem hiç akıllıca değildir ve işe yarar.

— Fazul
kaynak

1

Merhaba, bunu daha faydalı bir anwer yapmak için, gscan2pdf ve tesseract'ı nereden edineceğiniz ve kullanacağınız konusunda biraz daha ayrıntılı bilgi verebilir misiniz?

— NGRhodes

0

@ Zetah'ın cevabını yazdım.

Burada mevcuttur: https://gist.github.com/matthieuheitz/7287e214b1aeda7948f6c27fbfb5288b

— matthieu
kaynak