Kopyalama yapıştırırken PDF'de metin bozuktu


23

Bir PDF dosyasından metin kopyalayıp yapıştırmaya çalışıyorum.

Ancak, ne zaman orjinal metni yapıştırdığımda, karışık karakterlerden oluşan karışık bir karmaşa var. Metin aşağıdakine benzer (bu yalnızca küçük bir alıntıdır):

4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03! 
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$! 
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40! 
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'! 
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40! 
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(! 
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97! 
)*+*+, C<88,?>8513AG<5A14, 

Hem Adobe hem de Foxit PDF okuyucularında denedim. Adobe Reader'da 'Metin olarak kaydet' yaptım ve elde edilen metin dosyası da aynı bozuk metin.

Bu metnin bozulmamış çıkmasını nasıl sağlayabilirim? (Manuel yazmadan başka ... çıkarılacak çok fazla metin var.)


Bazı ekran okuyucu yardımcı programlarını (jpeg ile çalışan, bir baskı ekranı yapın ve oraya gidin) deneyin ya da burada farklı bir yol var . (Sadece bir 'tahmin', bunun için beni ısırmayın. O zamanlar ilk yolu kullandım. Umarım daha uygun yollar vardır).
Apache


Bu sorunu OS X ile de, en azından 10.8.2'den itibaren doğrulayabilirim. PDF dosya yapısını incelemek için biraz zaman harcadım, ancak ne yazık ki hasarı onarmak için hiçbir yol göremiyorum. Acrobat Pro'nun "PreFlight" dosyası, PDF / A standardına göre kontrol ederken dosyayla ilgili sorunları bildirir ve Envanter raporu, tamamen yanlış Unicode karakterleriyle eşleştirilen glifleri gösterir. Apple - ID 12655651 numaralı bir hata raporu yükselttim.
KenD

Yardımcı olabilirsiniz superuser.com/a/481510/153937
Ankit

Yanıtlar:


11

Bunu çözmenin en basit yolu, dosyayı Google Chrome'un en son sürümünde yerleşik PDF okuma eklentisi ile açmaktır . Ardından metni bulmak için Chrome'un arama özelliğini kullanabilirsiniz ve kopyala yapıştır düzgün çalışır.

Pipitas'ın Shiki'nin cevabı üzerine yaptığı yorumu oylamak istiyorum, ancak puanlarım yok :( Sorun şifreleme değil özel yazı tipi kodlaması olabilir, Acrobat'ta kodlamayı görmek için Dosya -> Özellikler'i ve ardından Yazı Tipleri sekmesini tıklayın. ve şifreli olup olmadığını görmek için Güvenlik sekmesini kullanın.


Aslında, özel yazı tipi kodlaması benim için suçluydu. Ancak, Chrome çözüm değildi. Bu sorunu kısmen Ghostscript ile PS'den bir PDF hazırlayarak çözdüm (PS kaynağına sahip olduğum için şanslıydım). LaTeX'in bitişik harfleri uyguladığı herhangi bir karakter grubu (örneğin, ff, c, fi vb.), Kopyala / yapıştırırken bazı düzenlemeler gerektiren PDF'nin kopyalanan metninde görünmez.
Fuhrmanator

1
Krom ile aynı sorun
JinSnow

4

Oluşturduğum PDF'lerde bu sorunu keşfettim ve sorunun kaynağını bulduğuma inanıyorum: PDF dosya boyutunu azaltmak için Mac OS X'in Önizlemesini kullanarak.

PDF'lerin resimlerle birlikte toplam dosya boyutunu azaltmak için PDF'lerde görüntüleri sıkıştırmak için Colorsync Utility programını kullanarak bazı Quartz filtreleri oluşturmuştum. Burada anlatıldığı gibi: http://www.macosxhints.com/article.php?story=20031106133852693

Orijinal (sıkıştırılmamış) PDF dosyasından kolayca metin kopyalayıp yapıştırabildiğimi öğrendim, ancak bu PDF'yi oluşturduğum bir Dosya Boyutu Küçültme filtresiyle çalıştırdıktan sonra, ortaya çıkan sıkıştırılmış PDF yapıştırmayı açıkça kopyalamıyor (gibi görünüyor gönderdiğiniz dizeler).

Bununla birlikte, aynı orijinal PDF'yi Adobe Acrobat Pro Belgesi> Dosya Boyutunu Küçült işlevi ile çalıştırarak, sonuçta oluşan sıkıştırılmış PDF metni başarıyla kopyalayıp yapıştırabilir.

Bu nedenle, PDF dosyanızın başka bir yerden alındığını ve gerçekten bir şekilde sıkıştırılmışsa orijinal sürüme ulaşamayacağınızı varsayarak, bu durum tam olarak işe yaramaz. Ancak bu açıklama olabilir - dosyanın bir şekilde dosya boyutunu küçültme çabasıyla yönetildiği.

Bu, benzer sorunlarla karşılaşan içerik oluşturucular için PDF'den metin kopyalayıp yapıştırmak için faydalı olabilir - PDF'lerinizi küçültmek için OS X Quartz filtreleri kullanırken dikkatli olun!

--edit-- PDF'leri Önizleme ile birleştirirken bu sorunu da farkettim. İki kaynak PDF kopyalanabilir ve yapıştırılabilir, ancak bir dosyayı bir dosyadan diğerine sürüklerken, ardından birleştirilmiş PDF'yi kaydederken, birleştirilmiş belgedeki metin kopyalanamaz / yapıştırılamaz. Bunlar, Mac'te Filemaker Pro 11 ile aynı anda oluşturulan iki belgedir - farklı kodlamaları veya böyle bir şeyleri olacağını düşünemiyorum.


Bir mac os kullanıcısından birkaç pdf dosyası aldım. Seçim iyi, ancak kopyala ve yapıştır sadece çöp verir. Googledoc, adobe metin olarak kaydetme, hepsi bozuk metin verir.
tigr

OS X PDF daralmasının suçlu olduğundan şüpheleniyorum. Dışarıdaki herhangi biri, böyle bir işlemi "geri almak" için herhangi bir yoldan haberdar mı? Teşekkürler!
tigr

Pdf dosyasını birkaç (sanal) yazıcıya yazdırdım ve 4x boyutlu pdf dosyalarını şişirdim. Görünen basılı dosya görüntüdür, metin seçilemez, orijinal ise seçilebilir (ancak bozuk).
tigr

4

Bir geçici çözüm yapmanın çok kolay bir yolu var :)

Belgeyi CutePdf, Adobe 2 Pdf yazıcı veya benzeri bir şey kullanarak yazdırmanız yeterlidir. Alt satırda, pdf biçiminde yazdırmanız gerekir.

Çoğu durumda sorunu kolayca çözer.


2

Benim için işe yarayan çözüm:

  • Dokümanı Google Drive / Dokümanlar'a yükle
  • Google (2013 itibariyle) PDF olarak içe aktaracak
  • PDF görünümünü açın ve Dosya > Şununla Aç > Google Dokümanlar'ı seçin.
  • Belgenin dışa aktarılması yaklaşık bir dakika sürecektir.

Sonuçlar mükemmel değildi, ama bana yolun% 80'ini getirdi ve bana her şeyi yeniden yazmak zorunda kalmayacak kadar yeterli metin sağladı!


2

ÇÖZÜLDÜ: (Windows 8, Acrobat XI, Office 2010'da benim için çalıştı)

Seçenek 1:

  1. Acrobat'tan "Microsoft XPS Belge Yazarı" Çıktısı: "dosya adınız.oxps" kullanarak yazdırın
  2. XPS Görüntüleyici ile "... oxps" ı açın. * (aşağıdaki yorumlardaki indirme linkine bakınız)
  3. En yüksek çözünürlüğü (600 DPI) kullanarak PDF'ye (Acrobat PDF veya CutePDF) yazdırın.
  4. Acrobat ile açın ve OCR (Aranabilir Görüntü (Tam)) seçeneğini kullanın.

BİNGO!

Yorumlar:

  • En yüksek çözünürlük ve Aranabilir Görüntü (tam) kullanılması, metninizi temiz görünümünü kaybetmeden koruyacaktır. Düşük çözünürlük, metninizi okunabilir hale getirir, ancak üzgün görünmesini sağlar.
  • Microsoft XPS'yi (dosyalar) indirin: http://www.microsoft.com/en-us/download/details.aspx?id=11816
  • OCR'nin ne olduğunu bilmiyorsanız veya Aranabilir Görüntüyü (tam olarak) nerede bulacağınızı bilmiyorsanız veya "Microsoft XPS Belge Yazıcısı" nı kullanarak nasıl yazdırabilirsiniz, LÜTFEN, kendi başınıza Google’a deneyimleyin.

* Sadece XPS kurulu değilse yükleyin.

Seçenek 2:

Benzer yapın, ancak resim olarak kaydedin (png, tiff, ...), sonra tüm sayfaları tek bir "PDF" dosyasında birleştirmeniz gerekir.


1
1,2 ve 3 numaralı adımlar, 3 numaralı adıma atlayabileceğiniz uzun bir yol gibi görünüyor. (Örneğin, PDF okuyucunuzun içinden). XPS ile sapmaya gerek yok.
Hennes

@Hennes 4. adım yapmak hata Acrobat could not perform OCR on this page because: This page contains renderable text
veriyor

'renderable text' hala çizilmesi gereken (renderlenmiş) bir şey olarak geliyor. Muhtemelen zaten yapıldı ve XPS üzerinden geçerseniz OCR özellikli bir bitmap olarak saklanır. Ama bu sadece bir tahmin.
Hennes,

1

Bilgilerin hiçbir zaman alınamayacağı riski vardır. PDF belgeleri, esas olarak bir diğerinin, bir basit metnin, diğerinin bir resminin üstündeki bir belgedir. Belgeden kopyalayıp yapıştırdığınızda, resme bakarken metni işaretlersiniz, ancak panoya kopyalanan metin parçasının karşılık gelen kısmıdır.

Belgenin oluşturulma biçimine bağlı olarak, metin bölümünün kalitesi ve kullanılabilirliği büyük ölçüde değişebilir. Bir kelime işlemci belgesini Acrobat, Word, bir PDF yazıcı sürücüsü veya başka bir yöntem kullanarak PDF biçiminde kaydederseniz, metin dosyası orijinal metinden oluşturulabildiğinden, genellikle mükemmel olur. Bazı özel karakterler bozulabilir, ancak düz metin genellikle iyidir.

Bununla birlikte, belge taranan bir görüntüden oluşturulursa, metin kısmı genellikle görüntünün OCR işlemesiyle oluşturulur; bu, özellikle orijinal amaç için en uygun olandan daha azsa, oldukça üzgün sonuçlar doğurabilir.

PDF'yi oluşturmak için kullanılan kötü bir program veya yanlış ayarlar da, oluşturulduktan sonra dosya üzerinde bazı şifreleme türlerinin çalışabileceği gibi metin bölümünün tamamen bozulmasına neden olabilir.

Sonuç olarak, belgenin metin kısmı gerçekten kötüyse, daha iyi hale getirmenin yolu yoktur. En iyi tercihiniz, metin bölümünü tamamen kaldırmak ve programın OCR işlemini yeniden yapmasıdır. Acrobat içinden yapılabileceğini düşünüyorum, ancak tam olarak emin değilim.


1

Bunun olası bir nedeni, PDF'ye gömülü fontun, PDF'den metin kopyalanırken doğru şekilde uygulanmayan özel bir kodlama kullanması olabilir.

Tüm içeriği elle yazmaktan kurtulmak için farklı yöntemler kullanabilirsiniz.

  1. Metni, 'net' boyunca indirilebilen 'pdftotext.exe' araçlarından biriyle çıkarmayı denediniz mi? (Birini ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02pl4-win32.zip adresinde bulabilirsiniz ).
  2. Acrobat Reader'ın en yeni sürümü "Metin Olarak Kaydet ..." seçeneğine sahiptir . Bu (size bozuk bir metni verdi) "copy'n'paste" kullanın, ama muhtemelen için kullanılan aynı yazılım rutinleri kullanır gelmez render ekranda metin ve bunun daha kullanışlı sonuçlar doğurabilir.
  3. '2.' ise çalışmıyor ve Acrobat Professional uygulamasına erişiminiz varsa: font gömülü Distiller profillerinden birini kullanarak PDF'yi yeniden damıtmayı deneyin.
  4. '3.' ise Acrobat Professional'a erişiminiz olmasına rağmen çalışmaz: PDF'yi yeniden damıtmayı deneyin, ancak bu sefer 'resim olarak yazdır' seçeneğini kullanmalısınız (ana baskının sol alt köşesindeki 'Gelişmiş' düğmesiyle kullanılabilir) iletişim). 600dpi kullandığınızdan emin olun (ancak bu büyük bir dosya oluşturabilir). Elde edilen PDF, daha sonra Acrobat Pro'da tekrar açılır. Şimdi, dosyaya Acrobat'ın 'OCR' algoritmasını uygulayın; bu, gömülü metne neden olur (Reader'da ekran üzerinde çalışmak için kullanılmaz, ancak dizeleri aramak ve vurgulamak için kullanılır). Şimdi, yukarıda tartışılan yöntemlerden birini kullanarak metni bu PDF'den çıkarmayı tekrar deneyebilirsiniz.

Benim için PDF'ye yeniden yazdırmak için Acrobat Pro XI'ı kullanmak - ancak Yazdır ... iletişim kutusundaki Gelişmiş ... düğmesinde / alt iletişim kutusundaki "Görüntü Olarak Yazdır" seçeneği işaretlendiğinde (600 dpi'de) işaret edildi. Sonra nihayet sonucu düzgün şekilde OCR yapabilirsiniz . Bu sayfadaki diğer çözümlerden hiçbiri işe yaramadı. Not: Büyük bir belge için bu işlem biraz zaman alabilir ve sonuçtaki PDF oldukça büyük olabilir.
Glenn Slayden

@GlennSlayden: Tavsiyemin sizin için işe yaramasına sevindim ... Hala bir artığı hak etmediğini düşündüğünüzde ne eksikti?
Kurt Pfeifle

Um, oy verdim. Hala benim için '1' olarak gösteriyor. Benim tek şikayetim cevabınızın en altında olduğu ve onu bulması biraz zaman aldı (senin suçun değil ...)
Glenn Slayden

Tamam, @GlennSlayden, o zaman bu oy çok uzun zaman önce olmalıydı (yukarıdaki yorumunuzdan çok önce).
Kurt Pfeifle

Hayır, "12 saat önce" aynı anda yorum yazdım, aynı zamanda yorumu da yazdım ... Hala bir mavi ok görüyorum (inanıyorum) oyumun şu anda kayıtlı olan oy olduğunu (inanıyorum). Dün geceyi oylamadan önce '0' olduğunu hatırlıyorum.
Glenn Slayden

1

Kullanıcılarımdan biri de aynı sorunu bildirdi (PDF, Windows için Distiller ile oluşturuldu), kopyalanan metnin yalnızca bozuk metin olduğunu ve bir belgenin içinde arama yapamadığını söyledi. Mac'imi denedim ve herhangi bir sorun bulamadım. Windows makinesinde Adobe Reader kullanırken Apple'ın Preview uygulamasını kullandım. Sonra Mac'imde Adobe Reader'ı denedim ve aynı etkiyle karşılaştım. Bana göre görünüyor:

  • Adobe Reader kaydedilmiş metinde kod yazıyor ve arama yapıyor.

  • Apple'ın Önizlemesi, kodlama vektörünü uyguladıktan sonra kopyalar ve arar.

Bunu kesin olarak söyleyemem, ama gözlemimi açıklar. Ve birleştirilmiş / azaltılmış dosyaları burada başka bir gönderide açıklandığı şekilde kaydederken her türlü kodlamanın yapılmasına gerçekten izin verir: Preview ile yine metni tekrar çıkarabilirsiniz.

İlk önce, gömülü font alt kümesini içinde delikler bırakmak ve orijinal karakter konumunu kullanmak yerine bitişik girişler olarak kodlamanın daha mantıklı olacağını düşündüm. Ancak daha sonra farkettim ki, orijinal girdilerle font alt kümesine bir kodlama vektörü kullanarak, sıklıkla kullanılan karakterlerin baytlarında 1 olarak ayarlanmış daha az bitleri olabilir ve daha iyi bir şekilde sıkıştırılabilirler (bu entrofiyi azaltabilir) Genel metin bu şekilde).


1

Google docs'a yükleme ve Görünüm> Düz HTML seçeneğini kullanma, az miktarda yer eksikken, metni basılabilir metne yaklaşık% 80 oranında doğru verir.

Bu ile iplik kabul edilen yanıt için aynı konu bir çalışma örnekle açıklıyor.


1

Ofisimde hala desteklenmediği için Google Dokümanlar seçeneğini denemedim. Ancak, dosyayı yazdırarak "ScanSoft PDF Create!" "Acrobat 9" dan (tüm dosyayı görüntüye basar) ve yazdırılan dosyayı "Nuance PDF Converter" de açarak (seçtiğim görüntü dosyasını aranabilir ve düzenlenebilir hale getirmek isteyip istemediğim sordu) kolayca kopyalayıp yapıştırabileceğim bir Word belgesine sahip. Sadece% 80-90 civarında bir doğrulukla olsa mükemmel değildir. Ancak, hala düzeltilemeyen parçalarla karşılaştırmak ve dengelemek için orijinal PDF dosyanız hala var. Her şeyi yazmaktan zaman kazandırır. Benim 2c.


0

Bazı düzenlenebilir metin PDF'lerini Windows XP için Scansoft PDF Converter'ın eski bir sürümüyle yaptım ve ardından sayfaları Mac'in Önizleme programında birleştirdim. Ayrı sayfaların her biri için, Mac'teki Adobe Reader programından metinleri doğru arayabilir, kopyalayabilir ve dışa aktarabilirim. Önizleme ile birleştirildiğinde ve tek bir dosya olarak kaydedildiğinde, hepsi ekranda iyi görünüyordu, ancak yalnızca birkaç bölüm doğru bir şekilde aranabiliyor / ihraç edilebiliyordu. Bu sorun beni buraya getirdi.

Buradaki yayınlar bana bazı iyi işaretler verdi (teşekkür ederim!). Yazı tiplerinin dosya özelliklerine baktım. Win XP'den tek sayfa dosyalar (her şey yolunda) kodlamanın ANSI olduğunu söyledi. Önizleme'de bir araya getirilen dosya (kopyalanan metnin bozuk olduğu yerlerde) yazı tiplerinin çoğunun "Yerleşik" olarak kodlandığını ve birkaçının "Roma" olarak kodlandığını gösterdi.

Sorunumun çözümü her zaman burnumun altındaydı - Scansoft programının kendisi dosyaları birleştirebiliyordu. Scansoft'un birleştiricisini kullanıp dosyayı Mac'te açtığımda, tüm fontlar ANSI kodlu olarak gösterildi ve tüm metinler mükemmel şekilde kopyalandı / kopyalandı. Neden dünyada ilk başta onları PDF Converter'de birleştirmedim, bilmiyorum. Teşekkürler, posterler!

Aynı şey Linux sistemindeki dosyaları açmak için de geçerlidir.

Bunun yalnızca Windows sorunlarını açıklamadığını biliyorum - PDF'de benzer karışık kökenler yoksa?

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.