OSX kullanıyorum ve pdf dosyalarını metne dönüştürmek istiyorum.
Bunu yapmak için ücretsiz bir uygulama istiyorum, eminim bazı olması gerekir.
OSX kullanıyorum ve pdf dosyalarını metne dönüştürmek istiyorum.
Bunu yapmak için ücretsiz bir uygulama istiyorum, eminim bazı olması gerekir.
Yanıtlar:
İşte Homebrew üzerinden xpdf kurmak ve kullanmak için kullandığım adımlar.
Homebrew'ın bağımlılıklarını yükleyin:
xcode-select --install
Homebrew'u web sitelerinden yükleyin:
/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"
Homebrew kurulumunu tamamlamanýzý söyleyin.
Homebrew'un mutlu ve teknik özelliklere göre çalıştığını doğrulayın.
brew doctor
Sonraki xpdf ve bağımlılıklarını yükleyin:
brew install Caskroom/cask/xquartz
brew install xpdf
Son olarak, xpdf paketi ile birlikte gelen pdftotext'i kullanın:
pdftotext Some_Document.pdf Some_Document.txt
İlk dosya adı mevcut bir PDF'dir; ikincisi varış noktasıdır. Sonuçlar, Adobe Acrobat'ın (kuşkusuz eski) bir sürümüne göre çok daha iyiydi. Düzenleme: Adobe Acrobat'ın yeni (2019) sürümleri de benzer şekilde kötü sonuçlar göstermiştir.
xquartz
konsol araçları için gerekli değil xpdf
. Dahası, poppler
çatalı xpdf
çok daha aktif bir şekilde korunuyor gibi görünüyor: github.com/scraperwiki/scraperwiki-python/issues/…
Çoklu yöntemler.
Google dokümanlarını kullanın (bir Google hesabına ihtiyacınız olacak)
Automator kullanın (bazı işler gerekir)
PDF'lerden metin ayıklayıp bir metin veya RTF belgesi olarak kaydedebilen bir iş akışı oluşturmak için Automator'u kullanabilirsiniz.
veya App Store'dan bir uygulama, örneğin PDF'den Metne
xpdf
hangi bağlantı noktaları ile yükledim:
port install xpdf
içerir:
xpdf-pdftotext
Bir metin dosyasından gelen (bir görüntüden değil) herhangi bir PDF dosyası için istediğinizi yapar:
xpdf-pdftotext PDF_file text_file
Adobe Reader'ın mevcut sürümünde (11.0.09), Dosya Menüsünde "Diğer Olarak Kaydet" öğesi vardır.
Seçeneklerden biri Metin .
Uygulama ücretsizdir ve metin dosyalarını çıktılamak iyi bir iş yapar. Yeni belgedeki tüm resimler .txt biçiminde kaybolacaktır.
Metni kopyalayıp başka bir belgeye yapıştırabilmeniz gerektiğini düşünüyorum. Tüm metni seçmek için
Bunu denemeye çalışırsanız ve yapıştırılmış metin yoksa, yalnızca bir sürü boş satır varsa, önce PDF'nizi yeni bir PDF'ye yazdırmayı deneyin;
Şimdi bu yeni PDF ile yukarıdaki işlemi deneyin. Benim için çalıştı!
Not: Microsoft Word'ünüz varsa PDF'nizi kelime ile açabilirsiniz
Aşağıdaki python betiği, metni bir PDF belgesinden bir .txt dosyasına gönderecektir. (Not: Verilerin PDF biçiminde tutulma biçimi nedeniyle metnin zorunlu olarak 'mantıklı' insan tarafından okunabilir sırada olduğuna dair bir garanti yoktur.)
Komut dosyası, komut satırında kendisine bağımsız değişken olarak sağlanan PDF dosyaları için metin dosyaları oluşturur (örneğin pdf2txt.py myPDF.pdf
), Kabuk türünü python ve Pass girdisini "Bağımsız değişkenler" olarak ayarlayarak Automator'ın "Kabuk Komut Dosyasını Çalıştır" eyleminde kullanabilirsiniz. . Sonra Hızlı Eylem veya DropApp olarak kullanabilirsiniz.
#!/usr/bin/python
# coding: utf-8
import os, sys
from Quartz import PDFDocument
from CoreFoundation import (NSURL, NSString)
NSUTF8StringEncoding = 4
def pdf2txt():
for filename in sys.argv[1:]:
inputfile =filename.decode('utf-8')
shortName = os.path.splitext(filename)[0]
outputfile = shortName+" text.txt"
pdfURL = NSURL.fileURLWithPath_(inputfile)
pdfDoc = PDFDocument.alloc().initWithURL_(pdfURL)
if pdfDoc :
pdfString = NSString.stringWithString_(pdfDoc.string())
pdfString.writeToFile_atomically_encoding_error_(outputfile, True, NSUTF8StringEncoding, None)
if __name__ == "__main__":
pdf2txt()
if pdfDoc
ile değiştirin print(pdfDoc.string())
.