Yanıtlar:
Google Dokümanlar şimdi resimlerde ve PDF’lerde OCR (Optik Karakter Tanıma) kullanan yeni bir API özelliğini test ediyor.
Gönderen Google İşletim Sistemi :
Google Dokümanlar API, bir görüntü üzerinde OCR (optik karakter tanıma) gerçekleştirmenize izin veren yeni bir özelliği test eder. Bir var bu özelliği göstermektedir canlı demo : 10'dan az MB JPG, GIF veya PNG resim yüksek çözünürlüklü yükleyebilir ve Google Dokümanlar yeni bir belgeye metin ve dönüşürse onu ayıklar. Google, "işlem şu anda 40 saniyeye kadar sürebilir" diyor ve küçük bir test hizmetin henüz güvenilir olmadığını gösterdi: yavaş ve sık sık hata veriyor.
Sonuçlar mükemmel olmaktan uzak ve birçok hata bulacaksınız, ancak hizmet ücretsiz ve sürekli olarak iyileştiriliyor. İşte bu taranan belge için OCR'nin sonucu :
Bir Google Dokümanlar dokümanı, HTML, OpenOffice ve Word dahil olmak üzere çeşitli biçimlerde dışa aktarılabilir:
SO 'ya cevabımın başına, bir PDF'yi programlı bir şekilde kolayca bir docx formatına dönüştürmenin bir yolunu bilen var mı :
PDF'yi SVG'ye dönüştürün (ghostscript bunu yapacak) ve içe aktarın ...
... mesele şu ki, Word PDF'yi gömmezken SVG'yi gömecek.
Örneğin , Omnipage Pro gibi bir optik karakter tanıma programı kullanın . PDF'yi belge girişi olarak ve Word'ü çıktı olarak destekler.
Ayrıca ayda 20 sayfa ücretsiz servis hizmeti veren OCRTerminal'i de deneyebilirsiniz . Davetiyeyle kullanım için uygun gibi görünen bir Beta Masaüstü İstemcisi var (onlarla iletişim kurmanız ve ilgi duymanız gerekir).