Gizli metin katmanı eklemek istediğim taranmış bir PDF malzemem var, bu yüzden belgeyi dizine ekleyebilirim. Sayfaları tiff görüntüleri olarak çıkarmak için ghostscript siyah beyaz tiff çıkış cihazı (tiffg4) kullandım ve işte neye benzediklerine bir örnek:
Bu görüntüyü tesseract ile işlemek iyi sonuç vermez.
Ghostscript çıktı DPI'sini (600, 300, 150, 96) değiştirmek, 96 DPI'deki görüntünün tesserattan en iyi sonucu verdiğini gösterir, ancak yine de tatmin edici değildir.
Şimdi hangi filtrenin OCR işleme için bu görüntüyü geliştireceğini tavsiye etmeyi düşündüm.
Imagemagick veya numpy / scipy / ndimage kullanabilirim