PDF'den OCR nasıl kaldırılır?

14

Bir süredir Google'da arama yapıyorum, ancak sorumun yanıtını bulamıyorum.

Adobe Acrobat ile yakın zamanda taradığım bir belgede istenmeyen OCR katmanlarım var. Düzgün OCR uygulanmadı ve bazı bilgileri düzeltmek istiyorum, ancak OCR istenen bilgileri silmek için yapıyor. Dosyaları TIF'lere dönüştürdüm, ancak (çok) önemli bir kalite kaybı fark ettim. Başka bir PDF'ye yazdırmanın metni koruduğunu veya görüntü kalitesini düşürdüğünü duydum.

Bu sorunu en kısa sürede çözmede herhangi bir yardım için teşekkür ederim.

Teşekkür ederim.

— Sanoo
kaynak

6

Acrobat Pro DC'de uygun komut, hem "Koru" hem de "Redact" araçlarıyla kullanılabilen "Gizli Bilgileri Kaldır" dır.

Komutu çalıştırdığınızda, sadece gizli bilgileri arar, ancak belgeyi değiştirmez. Ardından Acrobat'a hangi bilgilerin kaldırılacağını söylemelisiniz. Bu durumda, Sonuçlar bölmesinde "Gizli Metin" i seçin, ardından Kaldır düğmesini tıklayın ve değiştirilen belgeyi kaydedin.

— user1125483
kaynak

"Gizli bilgileri kaldır" ı kullandım, ancak bazı nedenlerden dolayı, bazı sayfalarda resmin bazı bölümlerini kaldıran bir nedenden dolayı. Ancak cevabınız için teşekkürler.

— Sanoo

Bu evrensel olarak doğru değil. Her nasılsa (muhtemelen macOS PDFKit hataları) ABBYY FineReader-OCRed metnim bozuldu ve Redaksiyon → Gizli Kaldır altındaki "Gizli metin" i işaretlemek metni herhangi bir sorun olmadan kaldırdı; Daha sonra Acrobat'ın içinde OCR yapmak için Gelişmiş Taramalar → Metin Tanıma'yı başarılı bir şekilde kullanabildim.

— Nicholas Riley

Benim için sorun, gizli metni kaldırdıktan sonra, hala "ClearScan" (yani "Düzenlenebilir Metin ve Görüntüler") ile bir OCR çalıştıramıyorum olmasıdır. Metin katmanı gitmiş gibi göründüğü için garip, ancak OCR çalıştırıldığında "Acrobat tanıma gerçekleştirilemediği için hata oluştu: sayfa yenilenebilir metin içeriyor."

— user1125483

1

Bir çok denemeden sonra Adobe Acrobat'tan Adobe PDF'ye yazdırmanın belgeyi OCR olmadan ve kaliteyi kaybetmeden yazdırdığını buldum (ilk bakışta farkedilemez bir kayıp kayboluyor).

Ancak, birçok site bunun işe yaramadığını iddia ediyor. Foxit Reader ve OneNote gibi diğer yazıcıları da denedim ancak kalitesi düştü. JPEG de aynıydı.

Lütfen kilometrenizin değişebileceğini unutmayın.

Not: Bu konuyu benimkinden daha iyi bir cevap bulma umuduyla cevapsız olarak işaretliyorum.

— Sanoo
kaynak

1

(bir yıl önce...)

Dediğiniz gibi, belgeler taranır ve örneğin Word'den PDF'ye yazdırılmazsa, Adobe'nizle kolayca kaldırabilirsiniz:

Belge'yi seçin, Belgeyi İncele ve şimdi gizli metni (OCR) kaldırabilirsiniz.

— Fran
kaynak

Cevabın için teşekkürler. En kısa zamanda test edeceğim ve size bildireceğim. Cevap için teşekkürler!

— Sanoo

Bu konu hakkında zaten yorum yaptığımı düşündüm, ama sorun şu ki Acrobat DC Pro'm var ve bu menüler kaldırıldı. Yine de cevabınız için teşekkürler.

— Sanoo

1

Acrobat Pro'da: 'gizli bilgileri kaldır'ı kullanın (' koruma 'altında). Tümünü seç, yürüt, OCR gitti

— jazzzz
kaynak

1

Acrobat X'te, Koruma altında, HER ŞEYİ kaldıran ancak belgeyi düzleştirilmiş bir bit eşlemesine dönüştüren (OCR'd metin katmanı dahil) görülebilen bir Sanitize Belgesi düğmesi bulunur.

— Dave
kaynak

1

JPEG'e dışa aktararak çözdüm, sonra JPEG'den 'dosyaları akrobatta birleştir'. Bu, aslında bir kelime dokümanı olan ve PDF'ye dönüştürülmüş bir dokümandan. OCR gitti.

— rando cal
kaynak

0

Bu ücretsiz PDF Redactor için bir araç geliştirdim . Resmi yüklerseniz ve redaksiyona tıklarsanız, pdf'niz düzleşir ve OCR kaldırılır. İsterseniz, belgede redaksiyon işaretleri de çizebilirsiniz.

— levinology
kaynak