Pdftotext’in başarılı olmama nedeni, PDF’nin taranan görüntüler olması ve onları OCR’a koymanız gerekebilir pdf
, edilemeyecek her şeyi aramak için hızlı bir yol yazdım ve OCR’ı yazdım grep
.
Bir pdf
dosya herhangi bir yazı tipine sahip değilse, genellikle aranamadığını fark ettim . Bunu bilerek kullanabiliriz pdffonts
.
İlk 2 satır pdffonts
tablo başlığıdır, yani bir dosya aranabilir olduğunda ikiden fazla satır çıktısı varsa, bunu yaratabileceğimizi bilerek:
gedit check_pdf_searchable.sh
bunu yapıştır
#!/bin/bash
#set -vx
if ((`pdffonts "$1" | wc -l` < 3 )); then
echo $1
ocrmypdf "$1" "$1"_ocr.pdf
fi
sonra çalıştırılabilir yap
chmod +x check_pdf_searchable.sh
sonra aranamayan tüm pdfs'leri dizinde listele:
ls -1 ./*.pdf | xargs -L1 -I {} ./check_pdf_searchable.sh {}
veya dizinde ve alt dizinlerinde:
tree -fai . | grep -P ".pdf$" | xargs -L1 -I {} ./check_pdf_searchable.sh {}
Ayrıca yüklemeniz gerekir:
sudo apt install ocrmypdf