Tamam ... Sanırım pdflatexburada eksik olan parça.
OP poppler-utilsve içine baktığını söyledi pdftk. Buna ekleyeyim pdfimages. Bunlar, birlikte pdflatexbir çözümün parçalarıdır.
pdfimages -f 4 -l 20 -j -png target.pdf imageroot
Yukarıdaki örnek kodda, pdfimages 4 ile 20 arasındaki sayfalara bakar target.pdfve tüm resimleri başlangıcında adlara sahip dosyalara çıkarır imageroot.
poppler-utilssağlar pdftotext. -layoutBelgeyi okunabilir tutmak için harika bir iş çıkaran seçeneği öneriyorum .
pdftotext -layout $1.pdf $1.txt
OP'nin pidosaurusimagemagick tarafından sunulan çözüme itirazı , bir görüntünün çıkarılabilir metne sahip olmamasıdır. Belirttiğim yardımcı programlarla OP artık çıkarılan tüm metinlerin yanı sıra tüm resimlere sahip olacak ve sayfa numaraları ve içerikleri seçenek tarafından korunacak . OP, metnin doğru sayfasını belirleyebilir ve bir yönerge ile biten ve değiştirilen resmi dosya adıyla ifade eden bir dosyaya yerleştirebilir . Sonra bunu ve belgenin geri kalanına eklemek için yeni bir tek sayfalı .pdf ile bitirmek . Resmin orijinal sayfasının metninde nerede kaldığını biliyorsanız , resmi tam olarak doğru yere yerleştirebilirsiniz.-layout.tex%includegraphicspdflatexpdftk%includegraphics [h]