Taranmış bir kitabın PDF dosyası var.
OCR yapacak ve daha sonra tekrar PDF veya belge olarak kaydetmek için bir seçenek sağlayacak ücretsiz bir yazılım arıyorum.
Bir tane var mı?
Taranmış bir kitabın PDF dosyası var.
OCR yapacak ve daha sonra tekrar PDF veya belge olarak kaydetmek için bir seçenek sağlayacak ücretsiz bir yazılım arıyorum.
Bir tane var mı?
Yanıtlar:
Adobe Acrobat Pro'nun 30 günlük deneme sürümünü indirebilir ve 'OCR Metin Tanıma' işlevini kullanabilirsiniz ('Belge> OCR Metin Tanıma> OCR Kullanarak Metni Tanıyın ...'). Ayarlar iletişim kutusunda, çıktı stili olarak 'Aranabilir Görüntü' seçeneğini seçin. Bu sayfa görüntüsünü koruyacak, ancak OCR'nin metnini gömecek, böylece belge aranabilir olacak ve metnin seçilmesine, kopyalanmasına ve yapıştırılmasına izin verecektir.
OCR'yi çalıştırdıktan sonra, OCR'nin 'OCR Şüphelilerini Bul' işlevlerini kullanma konusunda emin olmadığı kelimeleri onaylamanız veya düzeltmeniz gerekir.
Bir Google Hesabınız varsa, Google Dokümanlar artık bir PDF dosyası yükleme ve üzerinde OCR gerçekleştirme işlevini içerir.
Ben kendim denedim ve itiraf iyi biçimlendirilmiş bir PDF adil bir bıçak yapar.
Biçimlendirme hemen hemen yok edildi, ancak metin hayatta kaldı.
İnternette aşağıdaki ürünler listelenmiştir, ancak bunları kullanmadım.
Çevrimiçi OCR
OCR Terminali, taranan görüntülerinizde ve pdf dosyalarınızda Optik Karakter Tanıma (OCR) gerçekleştiren ve bunları düzenlenebilir ve metin içinde arama yapılabilir belgeler haline getiren çevrimiçi bir OCR hizmetidir.
Free-OCR.com ücretsiz bir çevrimiçi OCR (Optik Karakter Tanıma) aracıdır. Bunu, sağladığınız herhangi bir görüntüde OCR yapmak için kullanabilirsiniz.
Bu hizmet ücretsizdir, kayıt gerekmez. Ayrıca e-posta adresinize de ihtiyacımız yok.
Sadece görüntü dosyalarınızı yükleyin. Free-OCR bir JPG, GIF, TIFF BMP veya PDF alır ( sadece ilk sayfa ). Tek kısıtlama, görüntülerin 2 MB'den büyük olmaması, 5000 pikselden daha geniş veya daha yüksek olmaması ve saatte 10 resim yükleme sınırı olmasıdır.
Maestro Tanıma Sunucusu ticari, ancak çevrimiçi bir deneme demo var.
Ücretsiz yazılım
FreeOCR - yalnızca görüntüler için.
FreeOCR, Tesseract GUI olarak da bilinen Tesseract ücretsiz ocr motorunu içeren bir tarama ve OCR programıdır. Bir Windows yükleyici içerir ve kullanımı çok basittir ve çok sayfalı tiff'leri, faks belgelerini ve Tesseract motorunun kendi başına okuyamayacağı sıkıştırılmış Tiffler dahil olmak üzere çoğu görüntü türünü destekler.
pdfsandwich - pdf -> pdf dönüştürücü.
pdfsandwich OCR taranmış kitaplar veya dergiler için bir komut satırı aracıdır. Çok sütunlu metinler için bile sayfa düzenini tanıyabilir.
Aslında, pdfsandwich şu ikili dosyaları çağıran bir sarmalayıcı betiğidir: convert, cuneiform, gs ve hocr2pdf. Unix sistemlerinde çalıştığı bilinmektedir ve Linux ve MacOS X üzerinde test edilmiştir. Çok işlemcili sistemlerde paralel işlemeyi destekler.
Çivi yazısı + hocr2pdf + Ghostscript : DIY açık kaynaklı bir çözüm.
PDF sayfalarını bir araya getirmek için Ghostscript ile birlikte şimdi açık kaynaklı Cuneiform OCR sisteminin ve hocr2pdf'nin bir sürümünü içeren bir çözümü özetleyen bir cevap gönderdim .
Bu özellikle Linux içindi ama Windows için Cuneiform ve Ghostscript de alabilirsiniz. Yine de hocr2pdf veya eşdeğeri hakkında emin değilim.
Imagemagick'i yükleyin . Bir cmd penceresi veya terminal açın:
convert myfile.pdf myfile-%02d.jpg
Çıktı pdf, myfile-00.jpg, myfile-01.jpg, vb. İçindeki her sayfa için 1 jpg dosyası olacaktır.
Her görüntüyü bir ocr programından geçirin. Bu konuda çok deneyimim yok, ama bir sürü seçenek var gibi görünüyor.
Metnin her sayfasını tekrar pdf'ye dönüştürün. Bunu imagemagick ile tekrar yapabilirsiniz, ancak başka yollar da vardır:
convert page-%02d.txt -density 300x300 -compress jpeg final.pdf
Sorunu doğru anlayamasam da, isteğiniz soruna karmaşık bir çözüm gibi görünüyor. Herhangi bir oranda:
Neden verileri doğrudan pdf sayfasına girmenize izin verecek bir PDF yazıcı almıyorsunuz?
PDFCubed.com'u deneyin Yüklenecek bir şey yok, hepsi çevrimiçi yapılır. İşlenecek belgelerinizi web, e-posta veya dropbox yoluyla gönderebilirsiniz. Taranan PDF'ler ve TIF'ler aranabilir metin pdf'lerine dönüştürülür ve ardından web, e-posta veya dropbox yoluyla alınabilir.