Taranan görüntüleri PDF olarak aranabilir bir PDF dosyasına nasıl dönüştürebilirim? [kapalı]


19

Taranmış bir kitabın PDF dosyası var.

OCR yapacak ve daha sonra tekrar PDF veya belge olarak kaydetmek için bir seçenek sağlayacak ücretsiz bir yazılım arıyorum.

Bir tane var mı?


Pdf'deki görüntüleri metne dönüştürmek mi istiyorsunuz?
DaveParillo

Evet, ancak çıktı olarak bir txt dosyası istemiyorum. Ben tamamen aynı pdf görmek istiyorum ama Ctrl + F tuşlarına basın ve kelimeleri vb işaretlemek için bir seçenek ile ..

metin biçimlendirme ve stil kaybetmeden bu PDF'yi dönüştürmekte çok zorlanacaksınız. henüz taranmış görüntülerden bir belgeyi düzgün bir şekilde koruyabilen OCR yazılımı bulamıyorum. bazı eşek işleri için hazırlanın (örneğin, düzeltme okuma vb.) :)

Yanıtlar:


5

Adobe Acrobat Pro'nun 30 günlük deneme sürümünü indirebilir ve 'OCR Metin Tanıma' işlevini kullanabilirsiniz ('Belge> OCR Metin Tanıma> OCR Kullanarak Metni Tanıyın ...'). Ayarlar iletişim kutusunda, çıktı stili olarak 'Aranabilir Görüntü' seçeneğini seçin. Bu sayfa görüntüsünü koruyacak, ancak OCR'nin metnini gömecek, böylece belge aranabilir olacak ve metnin seçilmesine, kopyalanmasına ve yapıştırılmasına izin verecektir.

OCR'yi çalıştırdıktan sonra, OCR'nin 'OCR Şüphelilerini Bul' işlevlerini kullanma konusunda emin olmadığı kelimeleri onaylamanız veya düzeltmeniz gerekir.


Adobe ücretsiz olmasa da, buradaki en yetenekli OCR çözümü
James Healy

4

Bir Google Hesabınız varsa, Google Dokümanlar artık bir PDF dosyası yükleme ve üzerinde OCR gerçekleştirme işlevini içerir.

Ben kendim denedim ve itiraf iyi biçimlendirilmiş bir PDF adil bir bıçak yapar.

Biçimlendirme hemen hemen yok edildi, ancak metin hayatta kaldı.


4

İnternette aşağıdaki ürünler listelenmiştir, ancak bunları kullanmadım.

Çevrimiçi OCR

OCR Terminali

OCR Terminali, taranan görüntülerinizde ve pdf dosyalarınızda Optik Karakter Tanıma (OCR) gerçekleştiren ve bunları düzenlenebilir ve metin içinde arama yapılabilir belgeler haline getiren çevrimiçi bir OCR hizmetidir.

Ücretsiz OCR

Free-OCR.com ücretsiz bir çevrimiçi OCR (Optik Karakter Tanıma) aracıdır. Bunu, sağladığınız herhangi bir görüntüde OCR yapmak için kullanabilirsiniz.
Bu hizmet ücretsizdir, kayıt gerekmez. Ayrıca e-posta adresinize de ihtiyacımız yok.
Sadece görüntü dosyalarınızı yükleyin. Free-OCR bir JPG, GIF, TIFF BMP veya PDF alır ( sadece ilk sayfa ). Tek kısıtlama, görüntülerin 2 MB'den büyük olmaması, 5000 pikselden daha geniş veya daha yüksek olmaması ve saatte 10 resim yükleme sınırı olmasıdır.

Maestro Tanıma Sunucusu ticari, ancak çevrimiçi bir deneme demo var.

Ücretsiz yazılım

FreeOCR - yalnızca görüntüler için.

FreeOCR, Tesseract GUI olarak da bilinen Tesseract ücretsiz ocr motorunu içeren bir tarama ve OCR programıdır. Bir Windows yükleyici içerir ve kullanımı çok basittir ve çok sayfalı tiff'leri, faks belgelerini ve Tesseract motorunun kendi başına okuyamayacağı sıkıştırılmış Tiffler dahil olmak üzere çoğu görüntü türünü destekler.

pdfsandwich - pdf -> pdf dönüştürücü.

pdfsandwich OCR taranmış kitaplar veya dergiler için bir komut satırı aracıdır. Çok sütunlu metinler için bile sayfa düzenini tanıyabilir.

Aslında, pdfsandwich şu ikili dosyaları çağıran bir sarmalayıcı betiğidir: convert, cuneiform, gs ve hocr2pdf. Unix sistemlerinde çalıştığı bilinmektedir ve Linux ve MacOS X üzerinde test edilmiştir. Çok işlemcili sistemlerde paralel işlemeyi destekler.


Ben sadece pdfsandwich kullandım. Çalışıyor ve ücretsiz! :) Bu kesinlikle tezimde yardımcı olacak, teşekkürler!
Eddy

Görünüşe göre pdfsandwich taşınmış mı? tobias-elze.de/pdfsandwich
pioto

@pioto: Yukarıda pdfsandwich'i ekleyen ben değilim, ama önerdiğin gibi bağlantıyı düzelttim.
harrymc

2

Çivi yazısı + hocr2pdf + Ghostscript : DIY açık kaynaklı bir çözüm.

PDF sayfalarını bir araya getirmek için Ghostscript ile birlikte şimdi açık kaynaklı Cuneiform OCR sisteminin ve hocr2pdf'nin bir sürümünü içeren bir çözümü özetleyen bir cevap gönderdim .

Bu özellikle Linux içindi ama Windows için Cuneiform ve Ghostscript de alabilirsiniz. Yine de hocr2pdf veya eşdeğeri hakkında emin değilim.


1

Burada, Google dizinini ve OCR'yi sizin için bir web sitesinde izin vermeyi ve sonra almayı içeren çok garip bir yöntem var.


evet, ben de gördüm ... garip Gerçekten :) Ben bunu sonunda olabilir ...

0

Imagemagick'i yükleyin . Bir cmd penceresi veya terminal açın:

convert myfile.pdf myfile-%02d.jpg

Çıktı pdf, myfile-00.jpg, myfile-01.jpg, vb. İçindeki her sayfa için 1 jpg dosyası olacaktır.

Her görüntüyü bir ocr programından geçirin. Bu konuda çok deneyimim yok, ama bir sürü seçenek var gibi görünüyor.

Metnin her sayfasını tekrar pdf'ye dönüştürün. Bunu imagemagick ile tekrar yapabilirsiniz, ancak başka yollar da vardır:

convert page-%02d.txt -density 300x300 -compress jpeg final.pdf

0

Sorunu doğru anlayamasam da, isteğiniz soruna karmaşık bir çözüm gibi görünüyor. Herhangi bir oranda:

Neden verileri doğrudan pdf sayfasına girmenize izin verecek bir PDF yazıcı almıyorsunuz?


0

PDFCubed.com'u deneyin Yüklenecek bir şey yok, hepsi çevrimiçi yapılır. İşlenecek belgelerinizi web, e-posta veya dropbox yoluyla gönderebilirsiniz. Taranan PDF'ler ve TIF'ler aranabilir metin pdf'lerine dönüştürülür ve ardından web, e-posta veya dropbox yoluyla alınabilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.