Metin içeren bir sayfayı bir PDF'ye tarar ve üzerinde bir OCR uygulaması çalıştırırsanız, metin sayfaya eklenir, ancak "metin oluşturma modu" görünmez olarak ayarlanır. Orada, ancak ekranda gösterilmiyor (veya yazdırılırsa kağıda). Gördüğünüz veya yazdırdığınız orijinal taranmış resimdir.
Görünmez metni nasıl görünür hale getirebiliriz?
Pekala, PDF'i düzenleyebiliriz ... Metin oluşturmayı görünmez hale getirmek için PDF kodu şudur:
3 Tr
Bu dizeyi (henüz) orijinal from_abbyy.pdf'te veya from_ghostscript.pdf'de bulamazsınız çünkü PDF'lerin parçaları sıkıştırılmıştır. Bu yüzden onları mümkün olduğu kadar açıyoruz qpdf
:
qpdf \
--qdf \
from_abbyy.pdf \
qdf--from_abbyy.pdf
qpdf \
--qdf \
after_ghostscript.pdf \
qdf--after_ghostscript.pdf
Şimdi yukarıdaki dizgiyi kolayca bulabiliriz (ve her dosyada sadece bir tane var).
Bunu, görünen metin oluşturma modlarından birine geçirelim. Genel olarak, bu 8 metin oluşturma modundan birini seçebiliriz:
0 - fill glyph shapes
1 - stroke glyph shapes
2 - fill, then stroke glyph shapes
3 - neither fill nor stroke glyph shapes (invisible)
4 - fill and add to path for clipping glyph shapes
5 - stroke glyph shapes and add to path for clipping
6 - fill, then stroke glyph shapes and add path for clipping
7 - add glyph shapes to path for clipping
"Doldur" modunu kullanırsam, OCR'dan gelen metin muhtemelen alttaki tarama görüntüsünün üstünde çok iyi görünmeyecektir. Bu nedenle "inme" varyantını tercih ederim. Bu yüzden sadece okumak için satırın üstündeki değiştiririm
1 Tr
Bu değiştirilmiş PDF'ye bakarken beğenmedim, çünkü varsayılan çizgi genişliği zevkime göre çok kalın. Ayrıca, anahattı konturunun rengi siyahtır (varsayılan); Başlangıçta taranan şekillerle bir kontrast olması için kırmızıyı tercih ederim. Bu yüzden, çizgiyi çeyrek noktaya ayarlayan çizginin önüne bazı kodlar ekliyorum:
.25 w
ve kontur rengini kırmızıya ayarlamak için bazıları:
1 0 0 RG
Şimdi tam satır okur:
.25 w 1 0 0 RG 1 Tr
Bu kadar.
Not : onun "TOK" (teknik açıdan çünkü bizim küçük manipülasyon, dosya hasarlı olduğu xref
artık geçerli olacak tablo). Acrobat Reader veya Acrobat Professional, yine de açacak (hatta şikayet etmeden) ve dosyanın xref bölümünü sessizce "onaracak". Diğer PDF görüntüleyiciler dosyayı reddedebilir, ancak şimdilik umrumda değil ...
İşte sonucun ekran görüntüleri:
(İlk ekran görüntüsü pencere genişliğine yakınlaştırılmış.)
(İkinci ekran görüntüsü% 800 oranında yakınlaştırılmıştır.)
Kırmızı anahatlar, tıpkı istediğimiz gibi taranan metnin şimdi görünmesini sağlar.
Her iki dosya için da yukarıda belirtilen aynı prosedürü uygulamam_abbyy.pdf ve after_ghostscript.pdf . Her iki sonucu da 2 farklı Acrobat Reader örneğinde açtım. Her ikisini de aynı değere yakınlaştırırsak ve her iki pencereyi de büyütürsek, görünümden her iki dosya arasında geçiş yapmak kolaydır [alt]+[tab]
. Bu, iki PDF dosyası arasındaki en ince görüntü oluşturma farklılıklarını bile ortaya çıkarmanın iyi bir yoludur.
Sonuç olarak: Ghostscript'in (v9.02) girişi ve bu dosya için çıktısı arasında farklı bir tek piksel bile yok. Ama metni kopyalayıp kopyalamak istiyorsanız, oldukça fark var ...