Büyük bir kitabı dijital formata dönüştürmek için pratik OCR çözümü?


12

Bu hafta sonu büyükbaba veya büyükannemin yeri bitmişti. Büyükannem, aile tarihinin 1630 yılına kadar giden bu dev (~ 1400 sayfa) kitabı çıkardı. Ben dev nerd, bir veritabanında depolanan ve web'den kullanılabilir tüm bilgiler için kaygan olacağını düşündüm. Tüm web programlama ve düzenli ifadeleri işleyebilir ve ne değil, ama bilmiyorum şey metni kitaptan bilgisayara almak için en iyi yoldur.

Bir çeşit OCR'nin gerekli olacağını biliyorum, yaptığım küçük araştırmadan seçeneklerim şöyle:

  1. her sayfanın bir fotoğraf makinesiyle fotoğrafını çekin ve ardından resimleri OCR yazılımı ile işleyin
  2. her sayfayı taramak için bir tarayıcı kullanın, ardından OCR yazılımı ile işleyin
  3. bunun gibi bir tür el cihazı kullanın .

Herkes bu sorunu çözmek için en iyi yolu hakkında herhangi bir fikri var mı? Kitabı yok etmek istemiyorum, çünkü bildiğim kadarıyla değiştirilemez. Muhtemelen büyük bir kitabı tarayacağım tek zaman, bu yüzden herhangi bir cihaza 250 dolardan fazla harcamak istediğimi sanmıyorum. Burada bazı manuel çabaları umursamıyorum (bunun büyük olasılıkla aylar alacağını anlıyorum), ancak mümkün olan en verimli yöntemi bulmak istiyorum.

Kitap hakkında not: Sadece yaklaşık 20 yaşında, bu yüzden oldukça iyi durumda. Tek renkli ve sayfalar sararmaya başlamamış. Yine de çok büyük olduğundan, metin ciltlemeye yaklaştığında olası gölgeler hakkında endişeleniyorum.

ocr 

1
Bir yan notta, kitap sadece 20 yaşındaysa ve bilgi 1600'lere geri dönüyorsa, orijinal kaynak malzeme nerede? Bunu yakalamak da güzel olabilir!
Craig

Evet, bu da iyi olurdu. Orijinal yazarı takip edip edemeyeceğimi göreceğim.

Yanıtlar:


8

Ben rastladım bu Lifehacker üzerinde oldukça uzun bir zaman geri, ve o zamandan beri benim en DIY projelerinden biri olmuştur.

resim açıklamasını buraya girin

IPhone'u herhangi bir kamera veya görüntüleme ile değiştirin ve herhangi bir yazılımla, hatta (urks!) MS Office ...;) için OCR'ye hazır bir sürü güzel yüksek çözünürlüklü jpeg yığını elde edersiniz.

Ucuz. Etkili. DIY. Böyle bir fikri yenemezsin.

EDIT: Yorumlar gölgeler, sayfa kıvrımlar, vb hakkında bazı noktaları ortaya koydu. Kelimenin tam anlamıyla fotoğraf kopyalanan kütüphane metinleri olan herkes için kolayca çözüldü.

Kitabı aydınlatmak ve gölgeleri ortadan kaldırmak için birden fazla ışık kaynağı ekleyin.

kitabı sayfalarda 90 derece eğimli olarak ortadaki ciltlere doğru kıvrılmayın. Aynı zamanda bağlamayı da korur.

Bir örnek verip veremediğimi göreceğim.

DÜZENLEME 2: kitabı nasıl tutmanız gerektiğine dair yüklenen örnek ve ayrıca soldan ışık kaynağına dikkat edin.

resim açıklamasını buraya girin


Bu çok havalı! Keşke bunu yapabilseydim :)
alex

Ancak, bunu yapmak için gerçek bir kameraya ve iyi bir kaliteye ihtiyacınız var, ya da özellikle çok eski bir kitaptan yararlanamayacağınız resim ile biteceksiniz. Yani ucuz olmaktan çok uzak.
Gnoupi

Çok ilginç. Muhtemelen sayfalar arasında gölgeler göz önüne alındığında, bunun bir kitapla nasıl çalışacağını merak ediyorum.

Sayfalar eğri veya gölgeli ise OCR yazılımının harfleri tanıması konusunda sorun yaşarsınız.
alex

kitabı aydınlatmak ve gölgeleri ortadan kaldırmak için birden fazla ışık kaynağı ekleyin. kitabı 90 derece eğin, böylece sayfalar ortadaki ciltlere doğru kıvrılmaz. Basit bir sağduyu, bunu her zaman kolejde kütüphane metinlerinin fotoğraflarını çekiyoruz.
caliban

3

Bildiğim kadarıyla ABBYY en iyi OCR yazılımını yapıyor, ancak ücretsiz değil. ABBYY FineReader'ın deneme sürümünü kullanmayı denemelisiniz , belki de size yardımcı olacaktır.


1

Resmi bir şekilde yakalamanız gerekir. Bunu sizin için yapacak çeşitli hizmetler vardır. Ayrıca, OCR henüz mükemmel olmadığından düzeltmek için metnin içeriğini bilen birine ihtiyacınız olacaktır. Özellikle el yazısıyla yazılmış herhangi bir şeyle.

Diğerleri sorunuzu burada tartışıyor: http://ask.metafilter.com/92506/scan-my-books

Bazı şirketler bunu sizin için yapacak: http://www.scandexsystems.com/BookScanning2.html http://www.kirtas.com/index.php?option=com_content&view=article&id=13&Itemid=48 http: // www. ristech.ca/product.html

Bazı Özgür Yazılımlar: http://download.cnet.com/Image-To-PDF-OCR-Converter-PDF-E-Book-Maker/3000-6675_4-10392924.html



0

Yakınınızdaki bir üniversitenin bir kitap tarayıcıya sahip olup olmadığını görmek ve daha sonra kitabınızı kitap içine koyması için bir öğrenciye rüşvet vermek / rüşvet vermek isteyebilirsiniz.


0

Chris'in belirttiği gibi, kitap taraması için düzenlenmiş bir düz yatak tarayıcı veya tüm bir kitap tarayıcı öneririm.

Mümkünse, doküman yönetim sistemleri söz konusu olduğunda görüntülerinizi endüstri standardı olan bir TIFF formatında derleyin.

OCR yapmak için, Google'ın kitap projesi için açıkladığı çerçeve olduğu için OCR'yi tesseract etmeyi öneriyorum .


0

süreci otomatikleştirmek cazip gelse de, bu kitap kişisel bir mesele olduğu için daha fazla zaman harcamak ve çalışmak isteyebilirsiniz. OCR toplu işlemi yapar, ancak sayfa sayfa okuyup orijinal ile karşılaştırmanız gerekir. unutmayın, yazarın hataları anlaşmanın bir parçasıdır, onları düzeltmeyin (çok eğimli hissediyorsanız dipnotlar oluşturun). acele etmeyin, kendinizi baskı altına alın, kitap tarama eşek işi ama titizlik öder ve ailenizin kronik ince bir dijital kopyası ile sonuçlanır. çabanızda iyi şanslar :)


aslında, bu gerçekten iyi bir nokta. Kitabın orijinal içeriğini dijital olarak kullanıma sunmayı düşünmemiştim, ancak sahip olduğum sürece .pdf sürümünü de yapabilirim.

neden PDF? HTML düşünüyorum. ve büyük miktarda veri elde etmenize rağmen orijinal taramaları da saklayabilirsiniz.

Benim fikrim, bir veritabanında tüm doğum / soy bilgisine sahip olmaktı, bu yüzden gezinmeyi / arama / güncellemeyi kolaylaştıracak bir web ön ucu yapabilirdim. Herhangi bir yazım hatası yazmayı planlıyorum. Ayrıca, orada olmayan bazı kuzenlerim var ve onları eklemek güzel olurdu. Ben pdf düşünüyordum çünkü orijinal sayfa numaraları ve böyle sağlam orijinal kitap gibi görünecek bir şey olması güzel olurdu. O versiyonu yalnız bırakıp kitaptaki tüm yazım hatalarını saklıyorum.

0

İş yerinde yaklaşık 250 $ olan bir Plustek Optibook 3600 kitap tarayıcı kullanıyoruz . Temelde standart bir düz yatak tarayıcıdır, ancak cam levha tarayıcının kenarına doğru gider, böylece kitap sayfası plakaya düz olarak yerleştirilebilir. Bu, omurga gölgesini ortadan kaldırır ve kitaplara zarar vermekten kaçınır.

resim açıklamasını buraya girin


Bunu gerçekten çok kalın bir kitapla kullanmayı denediniz mi? 3 inç kalınlığında.

Sayfa makul düz olacak şekilde 90 ° açabiliyorsanız iyi olmalıdır. Bir masa kenarında deneyin.
pelms
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.