Çalıştığım binanın haritalarını içeren bir PDF dosyasına burada sahibim:
http://www.libsys.und.edu/dev/FloorPlans_All.pdf
Orijinal kaynak dosyaları kayboldu ve harita görüntülerini, üzerlerine üst üste yerleştirilmiş olan metin ve simgeler olmadan çıkarmam istendi . Bu can sıkıcı derecede zor oldu.
Şimdiye kadar aşağıdaki GUI programlarını denedim:
- Adobe Reader: Metin seçmeme izin veriyor, fakat arka plan resimlerini değil
- FoxIt PDF Viewer: metin seçmeme izin veriyor, fakat arka plan resimlerini değil
- Ubuntu 10.10'daki XPDF: mes metni seçer, fakat arka plan resimlerini seçmez
Ve ayrıca aşağıdaki komut satırı programları:
- pdfimages: banyoların gayet iyi olduğunu belirten, ancak arka plandaki resimleri gösteren simgeleri çıkarır
- pdftohtml: pdfimages ile aynı, ayrıca kötü bir şekilde işaretlenmiş HTML belgesi yapar
- pdfextract: pdfimages ile aynı
- convert: başarıyla kaydedilen resimler, ancak metin içine yazılan
PDF'yi bir metin düzenleyicide manuel olarak açmayı ve akış nesnelerini yeni bir dosyaya yapıştırarak ve .jpg, .png veya .bmp uzantısıyla (her biri sırayla) kaydederek çıkarmayı bile denedim. PDF dosyalarının iç yapısı hakkında ne kadar az şey bildiğime bakıldığında, bunun işe yaramadığı şaşırtıcı değil.
Öyleyse ... metin ve simgeleri almadan haritadaki görüntüleri bu şeyden alabilmemin bir yolu var mı?
qpdf
İkili parçaları mümkün olduğunca ASCII'ye dönüştürmek için kullanın . (2) Ekranda veya çıktılarda görmek istemediğim tüm metni görünmez yapmak için bir metin düzenleyici kullanın ( görünmez bayrağı değiştirerek XRef tablosuna kolayca ve zarar vermeden ulaşılabilir ). (3) Ghostscript ile sonucu mümkün olduğunca kaynatmak için tekrar damıtın. - Ne yazık ki, dosyanız prosedürü göstermek için artık indirilemez ...