Bu PDF neden parantezleri doğru şekilde kodluyor, pdftotext kullanılırken veya kopyalayıp yapıştırırken kullanılmıyor?


4

İşte bazı dergi makalelerine bağlantılar:

Hepsi parantezleri (ve parantez gibi diğer karakterleri) yanlış kodlar. Ancak, bu yalnızca bunları metne dönüştürmeye veya kopyalayıp yapıştırmaya çalışırken görünür. Örneğin, ilk makalenin gövdesinin ilk satırını okumalısınız:

Proton exchange membrane fuel cells (PEMFCs) have received

Bunun yerine, Acrobat Reader’dan kopyalayıp yapıştırırken

Proton exchange membrane fuel cells PEMFCs have received

Ve "Metin olarak kaydet" kullanırken

Proton exchange membrane fuel cells ^CPEMFCs�
have received 

Açık parantez, ^C03 ASCII kontrol sekansı ve kapanış parantezi Unicode 65533'tür, yerine yeni bir satır gelir. Benzer bir şekilde, pdf2txtgibi şifre

Proton exchange membrane fuel cells 共PEMFCs兲 have received

(Unicode 20849 ve 20850) ve olarak pdftotextkodlar

Proton exchange membrane fuel cells ͑PEMFCs͒ have received

(Unicode 849 ve 850).

Ayrıca Unicode 851 (͓), 852 (͔), 1003 (ϫ), 1011 (ϳ), 1015 (Ϸ), 8217 ('), 8211 (-), 8722 (-), 64257 (fi), 64258 ( fl) ve pdftotextçıkıştaki kontrol karakteri Ctrl-L (ASCII 12) . Bazıları çok kolay bir şekilde ASCII'ye normalleştirilebilirdi, ancak bazıları manuel haritalama gerektirecek.

Benim sorularım:

  1. Bunu düzeltmenin en iyi yolu nedir? Yanlış kullanılan karakterleri değiştirmek için bir komut dosyası kullanmak da dahil olmak üzere bazı benzer sorular gördüm , ancak eşlemeleri ayarlamak önemsizdir ve PDF'yi düzeltmez.

  2. Neden farklı PDF okuyucuları ve metin yardımcı programlarına PDF bu kadar farklı sonuçlar veriyor?

İşte çıktılarını var pdfinfove pdffonts:

Title:          
Subject:        
Keywords:       
Author:         
Creator:        XPP
Producer:       Acrobat Distiller 6.0.1 (Windows)
CreationDate:   Thu Mar 23 12:07:23 2006
ModDate:        Sun Nov  4 12:48:02 2012
Tagged:         no
Pages:          6
Encrypted:      no
Page size:      657 x 855 pts
File size:      266467 bytes
Optimized:      no
PDF version:    1.4

name                                 type              emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
Helvetica                            Type 1            no  no  no      89  0
Helvetica-Oblique                    Type 1            no  no  no     109  0
Helvetica-Bold                       Type 1            no  no  no      88  0
LFNLKJ+Times-Bold                    Type 1C           yes yes no      63  0
LFNLLK+Times-Italic                  Type 1C           yes yes no      64  0
LFNLMK+Times-Roman                   Type 1C           yes yes no      65  0
LFNLML+MathematicalPi-Three          Type 1C           yes yes no      66  0
LFNLMM+MathematicalPi-One            Type 1C           yes yes no      67  0
LFNLMN+Universal-GreekwithMathPi     Type 1C           yes yes no      72  0

Yanıtlar:


2

Bu sorunun cevabı "uni" sütununda: özellikle parantez içinde kullanılan fontlar Unicode ile kesin bir eşlemeden yoksun. Bazı rasgele semboller için en doğru kod noktasını belirlemek zor bir problemdir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.