PDF dosyalarını incelemek için en iyi araç? [kapalı]

Question 1

Tercihen bir araçla PDF dosyalarını nasıl inceleyebilirim?

Kullanım örneği: Programlı olarak PDF dosyaları oluşturmaya çalışıyorum (iText kullanarak). Belirli düzenleri elde etmekte sorun yaşıyorum, ancak metni istediğim şekilde düzenlenmiş (Word'den oluşturulmuş) PDF dosyalarım var. Bunu nasıl yaptıklarını tersine çevirmek istiyorum.

PDF Inspector iyi görünüyor, ancak Windows için bir şeyler arıyorum.

Question 2

Adobe Acrobat, PDF dosyalarını incelemenizi sağlayan çok güzel ancak oldukça iyi gizli bir moda sahiptir. Bunu https://blog.idrsolutions.com/2009/04/viewing-pdf-objects/ adresinde açıklayan bir blog yazısı yazdım.

Question 3

Diğer yanıtlarda bahsedilen GUI tabanlı araçların yanı sıra, orijinal PDF kaynak kodunu farklı bir gösterime dönüştürebilen ve (şimdi değiştirilmiş dosyayı) bir metin düzenleyiciyle incelemenizi sağlayan birkaç komut satırı aracı vardır. Aşağıdaki tüm araçlar Linux, Mac OS X, diğer Unix sistemleri veya Windows üzerinde çalışır.

`qpdf` (benim favorim)

Sıkıştırılmış (çoğu) nesnenin akışlarını açmak ve ayrıca ObjStmnesneleri ayrı dolaylı nesnelere ayırmak için qpdf kullanın :

qpdf --qdf --object-streams=disable orig.pdf uncompressed-qpdf.pdf

qpdfkendisini "PDF dosyalarında yapısal, içeriği koruyan dönüştürmeler" yapan bir araç olarak tanımlıyor .

Ardından uncompressed-qpdf.pdf, en sevdiğiniz metin düzenleyicide dosyayı açın + inceleyin . Önceden sıkıştırılmış (ve dolayısıyla ikili) baytların çoğu artık düz metin olacaktır.

`mutool`

Orada da mutoolbirlikte geliyor komut satırı aracı MuPDF (aynı şirket tarafından yapılan Ghostscript'e kardeş ürünüdür, PDF görüntüleyici Artifex ). Aşağıdaki komut aynı zamanda akışları açar ve bir metin düzenleyici aracılığıyla incelemeyi daha kolay hale getirir:

mutool clean -d orig.pdf uncompressed-mutool.pdf

`podofouncompress`

PoDoFo , PDF formatıyla çalışmak için bir FreeSoftware / OpenSource kitaplığıdır ve dahil olmak üzere birkaç komut satırı aracı içerirpodofouncompress. PDF akışlarını açmak için şu şekilde kullanın:

podofouncompress orig.pdf uncompressed-podofo.pdf

`peepdf.py`

PeePDF , PDF dosyalarını keşfetmenize yardımcı olan Python tabanlı bir araçtır. Orijinal amacı PDF tabanlı kötü amaçlı yazılımların araştırılması ve incelenmesiydi, ancak tamamen zararsız PDF dosyalarının yapısını araştırmayı da yararlı buluyorum.

Bir PDF'de bulunan nesnelere ve akışlara "göz atmak" için etkileşimli olarak kullanılabilir.

Burada bir kullanım örneği vermeyeceğim, sadece belgelerine bir bağlantı vereceğim:

peepdf - PDF Analiz Aracı

`pdfid.py` ve `pdf-parser.py`

pdfid.pyve Didier Stevens'ınpdf-parser.py iki PDF aracıdır Python ile yazılmış .

Geçmişleri de kötü niyetli kişilerin araştırılmasına yardımcı olmaktır. PDF'leri - ancak aynı zamanda zararsız PDF dosyalarının yapısını ve içeriğini analiz etmeyi de faydalı buluyorum.

PDF nesnesinin sıkıştırılmamış akışını nasıl çıkaracağıma bir örnek. 5 * .dump dosyasına:

pdf-parser.py -o 5 -f -d obj5.dump my.pdf

Son notlar

Lütfen bir PDF içindeki bazı ikili parçaların sıkıştırılamaz (veya insan tarafından okunabilir ASCII koduna çözülebilir) olmadığına dikkat edin, çünkü bunlar PDF'lerin içine gömülüdür ve yerel formatlarında kullanılır. Bu tür PDF parçaları, JPEG görüntüleri, yazı tipleri veya ICC renk profilleridir.
Eğer araç ve verilen komut satırı örneklere yukarıda karşılaştırırsanız, yaptıklarını keşfedeceksiniz DEĞİL tüm özdeş çıktılar üretirler. Bunları kendi başlarına farklılıkları açısından karşılaştırma çabası, PDF sözdiziminin ve dosya biçiminin doğasını daha iyi anlamanıza yardımcı olabilir.

Question 4

Kullandığım iText rups Linux (okuma ve güncellenmesi PDF Syntax'i). Java ile yazıldığı için Windows'ta da çalışıyor. PDF dosyasındaki tüm nesnelere bir ağaç yapısında göz atabilirsiniz. Ayrıca denetlemeyi kolaylaştırmak için Flate kodlu akışların kodunu anında çözebilir.

İşte bir ekran görüntüsü:

iText RUPS ekran görüntüsü

Question 5

O2 Solutions'tan PDFXplorer, iç kısımları görüntüleme konusunda olağanüstü bir iş çıkarıyor.

http://www.o2sol.com/pdfxplorer/overview.htm

(Alt kısımda ücretsiz, rahatsız edici afiş).

Question 6

Ben kullandım PDFBox iyi bir başarı ile. Aşağıda, kodun nasıl göründüğünün bir örneği (0.7.2 sürümünden itibaren) verilmiştir ve muhtemelen sağlanan örneklerden birinden gelmiştir:

// load the document
System.out.println("Reading document: " + filename);
PDDocument doc = null;                                                                                                                                                                                                          
doc = PDDocument.load(filename);

// look at all the document information
PDDocumentInformation info = doc.getDocumentInformation();
COSDictionary dict = info.getDictionary();
List l = dict.keyList();
for (Object o : l) {
    //System.out.println(o.toString() + " " + dict.getString(o));
    System.out.println(o.toString());
}

// look at the document catalog
PDDocumentCatalog cat = doc.getDocumentCatalog();
System.out.println("Catalog:" + cat);

List<PDPage> lp = cat.getAllPages();
System.out.println("# Pages: " + lp.size());
PDPage page = lp.get(4);
System.out.println("Page: " + page);
System.out.println("\tCropBox: " + page.getCropBox());
System.out.println("\tMediaBox: " + page.getMediaBox());
System.out.println("\tResources: " + page.getResources());
System.out.println("\tRotation: " + page.getRotation());
System.out.println("\tArtBox: " + page.getArtBox());
System.out.println("\tBleedBox: " + page.getBleedBox());
System.out.println("\tContents: " + page.getContents());
System.out.println("\tTrimBox: " + page.getTrimBox());
List<PDAnnotation> la = page.getAnnotations();
System.out.println("\t# Annotations: " + la.size());

Question 7

Başka bir seçenek daha var. Adobe Acrobat Pro, PDF'nin dahili ağaç yapısını da görüntüleyebilir.

Ön Kontrolü Aç
Seçeneklere gidin (sağ üst köşe)
Dahili PDF Yapısı

Adobe Acrobat Pro, PDF'deki Belge Yazı Tiplerinin dahili yapısını da görüntüleyebilir, diğer "PDF ağaç yapısı görüntüleyicilerin" çoğu bu seçeneğe sahip değildir

Question 8

Acrobat'taki nesne görüntüleyici iyidir, ancak Windjack Solution'ın PDF Canopener'ı, sayfadaki nesneleri seçmek için damlalıkla daha iyi inceleme sağlar. Ayrıca PDF'de değişiklik yapılmasına izin verir.

http://www.windjack.com/products/pdfcanopener.html

Question 9

PDF Analyzer , PDFXplorer'a benzer , ancak daha fazla seçeneğe sahiptir. Tek bir kayıttan sonra da ücretsizdir.

Question 10

Python içinden programlı olarak çalışmak istiyorsanız, pdfminer iyi bir seçenektir. Bir nesne hiyerarşisi olarak bellekteki PDF yapısı ile çalışmanıza veya XML olarak serileştirmenize olanak tanır.

Question 11

Önerim, pdf dosyası üzerinde önemli metin düzenleme çalışmaları yapmak için çok yararlı olan Foxit PDF Reader .

PDF dosyalarını incelemek için en iyi araç? [kapalı]

qpdf (benim favorim)

mutool

podofouncompress

peepdf.py

pdfid.py ve pdf-parser.py