Bir notalar PDF'sinden nasıl metin çıkartabilirim (sadece metin)?


0

Metni çıkarmam gereken bir nota nota kitabım var. Notaları ya da herhangi bir şeyi çıkarmam gerekmez, sadece metnin ayetleri.

Bir metin satırını tek başına seçemiyorum - her zaman sayfanın diğer kısımlarını seçer. Tüm sayfanın bir arada kopyalanması her şeyi düzene sokar. Kaldırmak istediğim heceler arasında da tire işaretleri var.

Bu, PDF'deki ilk şarkıdır: http://bradshawfamily.net/~samuel/zzz/34832_kek_h1.pdf

Yanıtlar:


1
  1. İlk düşüncem, tüm metni notepad ++ içine kopyalayıp yapıştırmak ve sadece geçerli karakterleri filtrelemek için bazı regex işlemleri yapmaktı. Bu başarısız oldu, çünkü çizgiler yapıştırıldıktan sonra karışık.

  2. İkinci düşünce: Gibi bir çevrimiçi OCR kullanın onlineocr.net veya ocrconvert.com Beklediğim kadar kötü değildi. Yine de bazı yanlış yorumları silmek zorundasın

    enter image description here
    Tam örnek için tıklayın

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.