Fiziksel Metin - Dijital Metin


9

Önce bu soruyu önekle birlikte edeyim, hangi StackExchange sitesinin bu soru için en uygun olacağını bilmiyorum, ancak LifeHacks'in çalışabileceğini düşündüm ...

1998'de annemin ailesinin büyük bir aile birleşimi vardı (büyük büyükannemin on çocuğu vardı, bu yüzden gerçekten büyük bir toplantıydı). Uzaktaki Amcalarımdan biri, bu buluşma için ailelerimizin tarihi hakkında bir tür kitap yazdı ve Annem bana okumam için kitabı verdi. Kitabın ne kadar büyük olduğuna ve ne kadar araştırma yaptığına inanamadım. Kitabın tamamını bir web sitesinde elde etmenin bir yolunu bulmak istiyorum, sonra bunu ailemizdeki herkesle paylaşabileceğim ve nihayetinde bu çürük kitabın yapabileceğinden daha uzun bir süre boyunca tarihi koruyabileceğim.

Bu 300 sayfalık kitabın tümünde kelime için kelime yazmak zorunda olmadığımı ümit ederek, sadece sayfaları tarayabildiğim ve dijital metinde alabileceğim bir yol var mı? Açıkçası sadece fotoğraf çekebilir ve resimleri kullanarak web sitesini yapabilirim, ancak gerçek metin olarak olmanın daha yararlı olacağını düşünüyorum, çünkü o zaman birisi bir aile üyesi adı veya benzeri bir şey aradığında Google aramalarında daha iyi görünebilir. Ayrıca, aileden biri belki de ailemiz üzerinde bir araştırma projesi yaparsa, metnin bir kısmını kopyalayabilir ve daha kolay referans verebilir.

Peki bu eski aile kitabını dijital metne dönüştürmenin en iyi yolunu bilen var mı?

Kitap ön sayfası

Kalınlığı gösteren kitap

Yanıtlar:


14

Bir android telefon ve yakın zamanda fotoğraf uygulamasına ve kamera fotoğraf incelemesine eklenen " Google Lens. " Özelliğini kullanın.

Google Lens aracılığıyla OCR , şimdiye kadar kullandığım tüm OCR yazılımlarının ötesinde oldukça şaşırtıcı ve doğrudur.

Aşağıda, ucuz (100 USD) Nokia 3, en iyi telefon kullanarak prosedürü özetleyen bazı ekran görüntüleri , sevgili Nexus 4'üm hayaleti bıraktığından beri kullanmaktan zevk aldım.

1976'da basılmış, tarama için yırtılmaya cesaret edemediğim, benzer karakter yoğunluğuna ve yazı tipine sahip gibi görünen bir Yunan etimolojileri kitabının örnek bir OCR taramasını detaylandıracağım.

Bu orijinal resmi, ideal aydınlatma koşullarından daha az bir zamanda çektim, so-so telefon kamerasındaki tüm otomatik ayarları kullanarak, sonucu geliştirmek için özel fotoğraf teknikleri veya demirbaşlar kullanılmadı, bunun sadece amatörce alınan bir telefon pici olduğunu söyleyebiliriz . kitabın sayfası . (Metnin odaklandığından emin olun, hiçbir OCR bulanık odak dışı metni deşifre edemez)

resim açıklamasını buraya girin

Fotoğrafı çektikten sonra önizleme yoluyla veya Google fotoğraflar uygulamasını kullanarak fotoğrafın kendisinde bulunan Google lens simgesini tıklayın

resim açıklamasını buraya girin

İşte -Skynet- ^M^M^M^M^M^MYani, Google Lens sihirli taramasını yapıyor (noktalar biraz ürkütücü ama sanırım googley AI'nın işini yaptığını bildirmek için bir şeyler yapmak zorundaydılar , sanırım)

resim açıklamasını buraya girin

Görüntü tarandıktan sonra, Google Lens'in resimde bulduğu metin alanlarını açıkça ana hatlarıyla belirtir ve metinleri ekranın alt yarısına zaten çıkarılır. yalnızca bazı alanları istiyorsanız, başkalarını değil, bunları etkinleştirmek / devre dışı bırakmak için seçiminize dokunmanız yeterlidir.

Çıkarılan metne dokunursanız, telefonunuzun herhangi bir yerinde kopyalama / yapıştırma iyiliği için panonuza yerleştirilir .

resim açıklamasını buraya girin

Daha sonra metni bir Google dokümanlar belgesine yapıştırmanız yeterlidir . Orada şunları yapabilirsiniz: - orada veya PC'nizdeki hataları düzeltebilir, - belgeyi kalbinizin içeriğiyle paylaşabilir, - düzenlemelerinizi canlı olarak güncelleyerek web sayfası olarak yayınlayabilir veya - düz metin olarak dışa aktarabilirsiniz - word belgesi , - açık ofis belgesi, - yeniden yazılacak metinle uyumlu , nazik uyumlu epub elektronik kitap veya - iyi ol 'DRMd olmayan PDF

Bunun muhtemelen mümkün olan en geniş çıktı seçenekleriyle yayınlamaya giden en kısa yol olduğu söylenebilir.

Hepsini tek bir cihazdan (uygun uygulamalar yüklü Android telefon) yapabilir ve hiçbir zaman yüksek bir doğruluk oranıyla, temelde ücretsiz olarak yapabilirsiniz.

İşte Fragment yapıştırılan Google dokümanları
resim açıklamasını buraya girin

İşte Google dokümanlarının URL paylaşımı, yorum yapmaktan çekinmeyin. Ayrıca birisinin belgeyi uzaktan ve eşzamanlı olarak düzenlemenize yardımcı olabilirsiniz.

https://docs.google.com/document/d/1aizUDOHerSraU3fIw6lHLabmLSNsQ7PMXOl1IHHE0RU/edit?usp=drivesdk

Son olarak, yukarıda adı geçen belgeyi bağlantılı kaynak olarak kullanarak yayınlanan bir Google Sites web sitesi

https://sites.google.com/h-lo.me/ocrsample

Https, masaüstü ve mobil özelliklidir ve zevklere bağlı olarak, genellikle göz yaramaz. 15 dakika toplam çalışma ve hiçbir kodlama için fena değil.


Bir ayrıntılandırma kaldı ve bu, Google dokümanı üzerinde uygun paragraflar oluşturmaktır , çünkü Google Lens, çıkarılan her metin satırından sonra sert bir geri dönüş ekler, bu da her satırı kendi paragrafı yapar ve kullanmak istiyorsanız bu bir sorun haline gelecektir İçindekiler gibi Google Dokümanlar özellikleri veya belgenizi bir tür uyumlu e-pub elektronik kitabına dışa aktardığınızda (akan metni karıştırır)

Her satır başlangıcında geri silme tuşuna basarak uygun olduğunda her satıra katılabilir veya bir komut dosyasıyla otomatik hale getirilebilir.

Bu yüzden, bu işlemi otomatikleştirmek için kısa süre içinde yayınlayacağım bir uygulama komut dosyası eklentisi yazıyorum. Tamamlandığında burada size haber vereceğim.


Güzel detay. Bu ücretsiz çözümü seviyorum. Teşekkürler!
Kyle Bridenstine

Zevkle! Hatta ihtiyacınız olan her şeye sahip olabilirsiniz! :)
hlecuanda

Kalın bir kitap için, bu gerçekten emek yoğun bir yaklaşımdır: her sayfayı manuel olarak çevirmeli ve daha sonra fotoğraflamalısınız.
Hobbes

6

Bunu aşamalı olarak yapabilirsiniz. Sayfa taraması olarak her şeyi çevrimiçi hale getirerek ve olabildiğince güncellemeyle başlayın. Cerlox ™ plastik tarak bağlama, onu ayırmayı ve tekrar bağlama işlemine sokmayı kolaylaştırır.

Yazdırma aynı boyutta normal serif türü gibi göründüğünden, taramalar Optik Karakter Tanıma yazılımı kullanılarak sayısallaştırılabilir. OCR, son formu için web sitesinde okuyup yazabileceğiniz bir taslak metin dosyası verebilir.

Aynı zamanda, resimleri ve diğer resim malzemelerini toplayabilirsiniz.

Bunu, zaman / kaynaklar proje için kullanılabilir hale geldiğinden yapabilirsiniz.


Önceki cevaba benzer, ancak ayrıntılı olarak değil.
Trajan Espelien

@TrajanEspelien Önceki cevap nedir? Zaman damgasını kontrol edin. Cevap ilk önce, hiecuanda sunulmasından iki gün önce oldu. :)
stan

Evet ama diğer cevabı kadar detayı yok, bu yüzden diğerini kabul ettim. Bu ilk gelen sunucu değil .. en iyi cevap bu.
Kyle Bridenstine

@KyleBridenstine Şaka Yapmayın! Ben de hiecuanda iptal ettim. Harika bir cevaptı. Bu arada, bir Android telefonunuz yoksa veya Glass'a erişemediyseniz ne olur? Soru için genel bir cevap verdim. :)
stan

1
@KyleBridenstine Nazik sözleriniz için teşekkür ederim. Katılıyoruz. Bence bekleyerek doğru şeyi yaptın. (Bu sürece İlk cevap DEĞİL en iyisi olduğunu nedense. Tarihleri sonuçta vardır.) Ben sorunuzu ve okul kayıtları büyük bir kazık ile aynı şeyi yapmak zorunda olduğu bir meslektaşıma hiecuanda harika cevabı bağlantıyı gönderdi Brezilya!
Stan

2

Burada kendinize yaklaşmanız için bazı iyi cevaplar.

Sizin için başka birine ödeme yapma deneyimimi eklemek istiyorum.

Birleşik Krallık'ta Kitaplarımı Sayısallaştır'ı kullandım (Birleşik Krallık'ta kendimim).

Sonuçlardan çok memnun kaldım: Her kitap, aranabilir (ve kopyalanabilir) metin içeren bir PDF olarak geri gönderilir. Her sayfanın orijinal görüntüsünün ancak bir metin yer paylaşımıyla korunduğu, sayfadaki orijinal metni vurgulayabileceğiniz standart bir PDF tekniği kullanılır. Çok iyi bir değer. İngiltere'den denizaşırı biri olarak, hala kitapları gönderebilirsiniz.

Ayrıca kitabın ek ama çok makul bir maliyetle düzenlenebilir kelime belgesi formatında olması için bir seçenek sunar.

Orijinalin iade edilmesini istemiyorsanız, en ucuz seçenek yıkıcı taramayı seçmek olacaktır. Sayfaların kitaptan tek tek alındığı ve tarandığı yerdir. Varsayılan olarak, orijinal kitap iade edilmez, ancak muhtemelen ek ücret karşılığında (örneğin, posta ücreti için) talep edebileceğinize inanıyorum, ancak sayfalar ayrı ayrı taranacak şekilde kaldırılmış olacak. Yıkıcı tarama, tüm kitaplarım için seçtiğim seçenektir ve orijinallerin iade edilmesini gerektirmedim.

Orijinal belgeye ihtiyacınız varsa tahribatsız kopyalama da sağlarlar, ancak maliyet daha yüksektir. Daha önce bir kitabı kendiniz taradıysanız, kendi dijital taramalarınızı da kabul ederler - bunu arama yapılabilir, kopyalanabilir PDF veya Word belgesine dönüştürebilirler.

Kendi web sitesine bir göz atın. Gerçekten bunun en iyi seçenek olduğunu düşünüyorum: para kazanmak için zaman harcamak yerine zaman kazanmak için para harcayın.

Kitaplarımı Sayısallaştır için çalışmıyorum veya bunlarla herhangi bir mali ilgim yok (hissedar veya başka türlü).

Başlangıçta her bir pano klibi ve blu-tak ile açık tutulan bir DSLR Fotoğraf Makinesi (fotoğraf çekmek düz yataklı taramadan daha hızlı) kullanarak fotoğraf çekerek kitaplarda kendimi "taramaya" başlamıştım. Ama bunun emek yoğun olduğunu gördüm.

Hala kendiniz yapmaya hevesliyseniz, ScanTailor , çift sayfaları / sayfa çiftlerini tek tek sayfalara tarandığı gibi biçimlendirecek, bölebilecek, düzeltebilecek ve "küçülten" bir Açık Kaynaklı Windows Uygulamasıdır. Sonuçta elde edilen sayfalar istenildiği gibi düz ve düz görünür, ancak OCR yapmaz: sonuçlar hala bitmap görüntülerdir. Ancak en azından sayfaların, özellikle de büyük kitaplar için tamamen düz olacak şekilde düzenlenmesinin zor olduğu, tahribatsız kopyalamanın toplanmasını otomatikleştirerek toplu otomatikleştirmenin bir yolu var.

Güncellenmiş

Bir servis tarafından sunulan tarama seçenekleri hakkında daha fazla bilgi eklendi. Daha fazla bilgi için. Dilbilgisi düzeltmeleri.


1

Bunu yapmanın en hızlı yolu, akrabanızla iletişim kurmak ve bu kitabı oluşturmak için kullandıkları orijinal dosyalara sahip olup olmadıklarını görmektir. Ön sayfa fotoğrafından bir bilgisayarda yapıldığını söyleyebilirim. {Gerçekten eski kelime işlemci paketini buraya ekleyin} 'den geçerli bir biçime dönüştürün.

Basılı malzeme yığınını dijital bir belgeye dönüştürmenin ikinci en hızlı yolu:

  1. Bağlamayı çıkarın.
  2. Deliklerden kurtulmak için sayfaların sol kenarını kesin. Delikler belge besleyiciye müdahale ediyor.
  3. Kitapta gezinin ve belge besleyiciye müdahale edecek kırışıklıkları ve diğer hasarları açın.
  4. Belge besleyici ve tarama özelliğine sahip makul derecede modern çift yönlü yazıcıları bulun. PDF'ye tarayın.

Ardından, taranan sayfaları bir Word dosyasına dönüştürmek için herhangi bir OCR paketini kullanın. Bu amaçla Adobe Acrobat'ın tam sürümünde OCR özelliklerini kullanıyorum, ancak etrafında birçok OCR motoru var.


0

Çok ucuz bir hizmet denemek isteyebilirsiniz: preserve-your-memories.info. Kendim yaparken, tarayıcımı bir OCR programı olan OmniPage'e taramak ve sonra tamamen aranabilir bir pdf dosyası olarak kaydetmek için kullanıyorum. Yayınınız plastik tarak bağlı olduğundan, tek tek sayfaları taramak ve sonra yeniden hatırlatmak kolaydır. Yukarıdaki önerilerde belirtildiği gibi fotoğraf çekmek de çok işe yarar - birçok yaklaşım arasında iyi bir fotoğraf.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.