Ama bu nasıl mümkün olabilir?
Temel olarak, bir program giriş dosyasında OCR gerçekleştirir ve ardından resmin üzerine görünmez bir metin katmanı yerleştirir. Alternatif olarak, resmin altında aynı etkiyi veren görünür bir metin katmanı da yerleştirebilir .
Bir şey seçtiğinizde, metin katmanı seçildiği için resim önemli değildir.
bu nasıl yaratılabilir?
Birkaç yol var. Acrobat'ın zaten önerildiği göz önüne alındığında, bazı ücretsiz seçenekler ekleyeceğim (ve neyse ki bunları kullanmak için Windows'a sahip olmanız gerekmiyor).
PDF-XChange Görüntüleyici
Bu, İzleyici Yazılımına göre yerel bir Windows programıdır . 32 bit sürümünü bir 32 bit ön ekinde kullanırsanız ücretsiz sürüm, Wine altında çalışır; bu nedenle Windows, macOS ve Linux'ta kullanabilirsiniz. Son iki durumda, sırasıyla PlayOnMac veya PlayOnLinux'a ihtiyacınız olacak.
İşte Ubuntu Ask'a bıraktığım bu cevabın bir fotoğrafı :
OCRmyPDF
Bu, Ghostscript, Tesseract ve Unpaper'a dayanan Python ile yazılmış çok platformlu bir programdır. Dokümanlardan:
OCRmyPDF ne yapar?
OCRmyPDF, bir sayfadaki tüm bilgileri içerik kaybetmeden yakalamak için gereken renk alanını ve çözünürlüğünü (DPI) belirlemek için bir PDF'nin her sayfasını analiz eder. Sayfayı rasterleştirmek için Ghostscript'i kullanır ve ardından bir OCR “katmanı” oluşturmak için rasterleştirilmiş görüntü üzerinde OCR üzerinde çalışır. Katman daha sonra orijinal PDF'ye geri aşılanır.
Debian ve Ubuntu türevlerine kolayca yüklenebilir:
apt-get install ocrmypdf
Veya macOS'ta:
brew tap jbarlow83/ocrmypdf
brew install ocrmypdf
Windows'ta Docker görüntüsünü kullanmanız gerekir. Ayrıntılar için resmi belgelere bakın.
Kullanımı çok basittir ve daha iyi sonuçlar için isteğe bağlı -d
(eğrili) ve -c
(temiz) parametreleri kullanmanızı öneririm . OCR işlemini çalıştırmadan önce her sayfayı düzeltecek ve küçük noktaları / kusurlarını temizleyecektir.
Dili size sağlayabilirsiniz (ve vermelisiniz) -l
.
İşte İtalyanca yazılmış bu eğri belgeden alınan bir örnek :
Kullandığım komut şuydu:
ocrmypdf -l ita -d -c input.pdf output.pdf
Çevrimiçi araçlar
Aynı şeyi yapan birkaç çevrimiçi araç var. Kayda değer, PDF24, sınırlama olmadan kullanılabilecek ücretsiz web tabanlı bir OCRmyPDF sürümünü barındırıyor .
Ayrıca bakınız: