Pdftotext’in başarılı olmama nedeni, PDF’nin taranan görüntüler olması ve onları OCR’a koymanız gerekebilir pdf, edilemeyecek her şeyi aramak için hızlı bir yol yazdım ve OCR’ı yazdım grep.
Bir pdfdosya herhangi bir yazı tipine sahip değilse, genellikle aranamadığını fark ettim . Bunu bilerek kullanabiliriz pdffonts.
İlk 2 satır pdffontstablo başlığıdır, yani bir dosya aranabilir olduğunda ikiden fazla satır çıktısı varsa, bunu yaratabileceğimizi bilerek:
gedit check_pdf_searchable.sh
bunu yapıştır
#!/bin/bash
#set -vx
if ((`pdffonts "$1" | wc -l` < 3 )); then
echo $1
ocrmypdf "$1" "$1"_ocr.pdf
fi
sonra çalıştırılabilir yap
chmod +x check_pdf_searchable.sh
sonra aranamayan tüm pdfs'leri dizinde listele:
ls -1 ./*.pdf | xargs -L1 -I {} ./check_pdf_searchable.sh {}
veya dizinde ve alt dizinlerinde:
tree -fai . | grep -P ".pdf$" | xargs -L1 -I {} ./check_pdf_searchable.sh {}
Ayrıca yüklemeniz gerekir:
sudo apt install ocrmypdf