standart olmayan karakter kodlamalı PDF'lerde arama yapma

19

Bazı PDF dosyaları, metni kopyaladığınızda çöp (" mojibake ") üretir ( tamam olsalar bile). Bu, onları aramayı imkansız hale getirir (ne ararsanız çöp ile eşleşmez).

Kolay bir çözümü olan var mı?

Örnekler:

TEAC TV el kitabı EU2816STF (hem Windows hem de Mac'te Adobe Reader'daki sorunların üstesinden gelir, ancak Mac'teki Önizleme'de iyi çalışır)
Leadtek Winfast PVR2 kılavuzu (FTP bağlantısı; Mac'te Önizleme'de de sorun var)
Swann TV tarayıcı kartı kılavuzu (FTP bağlantısı; Mac'te Önizleme'de de sorun var)
Phonedisc lisans sözleşmesi (şimdi kaldırılmış olan DTMS'den )
Macquarie IFP üç aylık fon incelemesi
BAN-TACS Small Business Kitapçığı (arşivlenmiş sürüm)
Easterfest 2004 broşürü (arşivden de)

Windows için Adobe Reader (en son sürüm) kullanıyorum - belki de alternatif bir görüntüleyici yardımcı olabilir? Windows için ücretsiz bir çözüm arıyorum. Açık kaynak daha iyi olurdu.

Düzenleme: Multivalent Extract Text aracı için belgelerin aşağıdakiler de dahil olmak üzere neden yanlış gidebileceğinin iyi bir özeti vardır:

Metinde Unicode eşlemesi olmayabilir. PDF Tip 3 yazı tipleri genellikle yoktur ve TeX DVI'da Unicode eşdeğeri olmayan karakterler bulunur.

Unicode kodlaması hatalı olabilir. Open Office, bazı karakterleri aynı Unicode ile eşleştirir ve sonuçta harflerin düşmesine ve iki katına çıkmasına neden olur.

Sanırım bu durumlarda nihai çözüm, o karakter ne olduğunu anlamak için bir yazı tipi her glif OCR olacaktır. Glifin tam şekli (bir "vektör" görüntüsü olduğundan sonsuz çözünürlükte) mevcut olduğundan, bunun gürültülü bir taranmış belgeyi OCR işleminden daha kolay olacağını unutmayın.

pdf search character-encoding

— Hugh Allen
kaynak

Kullanılması clipbrd.exe(bkz mydigitallife.info/2008/11/06/... panoya ne var görebilir). Bu sana ne veriyor?

— Arjan

@Arjan van Bentem: Bana Not Defteri'ne yapıştırırken aldığım çöpün aynısını veriyor.

— Hugh Allen

Biçimle ilgili herhangi bir ayrıntı var mı? Mac'liyim, ancak Windows'un bir şeyin bir görüntü veya metin olup olmadığını söyleyeceğini ve sonra metin için belki de kodlama hakkında bir şey açığa çıkaracağını varsayalım?

— Arjan

TV Kılavuzu örneği için: Mac'te Adobe Reader 8.1.2'deki aynı sorun, ancak metni kopyalamak veya aramak için Mac Önizlemesini kullanırken sorun yok. Belge özellikleri yazı tipleri için "Kodlama: Özel" i gösterir (bkz. İmg.skitch.com/20100318-827uckkb5i326eta291f3qig3u.png ). Diğer PDF belgeleri "Kodlama: Ansi" veya "Roman" gibi şeyler gösterir ve Mac'te Adobe Reader'da sorun yaşar ( adobe.com/education/pdf/type_primer.pdf, img.skitch.com/20100318-tbyjrny9bsg684eqhr7b3au7fb.png verir ).

— Arjan

1

Ayrıca, pdftextonline.com metni TV Kılavuzundan veya Phonedisc belgesinden getiremez (diğerlerini denememiştir). Ama Gmail'e gönderme ve daha sonra HTML olarak görüntüleme yapar (Önizleme o belgeyle hiçbir sorunları vardır gibi) Manuel TV için çalışmalarını ...

— Arjan

3

Foxit Reader , belki?

Ne 's değerinde için, ben sadece Mac OS X 10.6.2 Safari 4.0.4 ile bağlantılı PDF kontrol edildi ve orada iken olan bazı Engrish , herhangi ekrandaki "çöp" olmadan kusursuz hale PDF. Belki de Unicode sorunları yaşıyorsunuz (Windows'ta Mac OS'den daha yaygın)?

— Alex
kaynak

Çöp ekranda değil - bazı metinleri kopyaladığımda panoda. Denediğinizde sizin için ne olur?

— Hugh Allen

@Hugh: Özellikler remote Uzaktan kumandalı renkli bir televizyon. 􏰃 VHF, UHF bantları veya kablo kanallarından 100 program önceden ayarlanabilir. Cable Kablo kanallarını ayarlayabilir. Menu Menü kontrol sistemi sayesinde TV'nin kontrolü çok kolaydır. External Harici cihazlar için üç adet Euroconnector soketi vardır (bilgisayar, video, video oyunları, ses seti, vb.)

— Alex

@Hugh: Madde işaretleri düzgün kopyalamıyor, ancak geri kalanı. Özellikle hangi bölüm / sayfa / paragrafla ilgili sorun yaşıyorsunuz ve bunu deneyeceğim?

— Alex

Hepsini. Windows için Adobe Reader kullanıyorum. Ben sadece yardımcı olmadı en son sürüme güncelledi. +1 bilgi için teşekkürler. Adobe Reader'ın OSX eşdeğeri tarafından paylaşılmayan bir hata var sanırım.

— Hugh Allen

4

Foxit Reader'ı denedim ve aynı sorunu yaşıyorum. Yükleyici de gerçekten bir müdahaleci, bir araç çubuğu yüklemek, ana sayfanızı değiştirmek vb. İsteyen :(

— Hugh Allen

3

Bunu çözmenin en basit yolu, dosyayı yerleşik PDF okuma eklentisiyle Google Chrome'un son bir sürümünde açmaktır . Ardından, metni bulmak için Chrome'un arama özelliğini kullanabilirsiniz ve kopyala yapıştır düzgün çalışır.

— acatalept
kaynak

2

İçin tv Manuel örnek : Aynı Mac üzerinde Adobe Reader 8.1.2 sorunu ancak hiçbir kopyalamak veya metin arama yapmak için Mac Önizleme kullanarak problemleri. Ayrıca, bir Gmail hesabına göndermek ve sonra "Görünüm" ü ve ardından "Düz HTML" yi seçmek metni gösterir. Ancak Adobe Reader bunu sevmiyor.

Belge özellikleri yazı tipleri için "Kodlama: Özel" i gösterir. Başka bir belge "Kodlama: Ansi" veya "Roman" gibi şeyleri gösterir ve Mac'te ne Önizleme ne de Adobe Reader'da sorun yoktur:

resim açıklamasını buraya girin

Bununla birlikte, hem Leadtek hem de Swann örnekleri Mac'te Önizleme'de ve Gmail'de sorun oluşturur ve her ikisi de "Kodlama: Kimlik-H" gösterir. Phonedisc testi ": Custom Kodlama" ile de başarısız olur.

Kafa karıştırıcı ve tutarlı değil, ancak bazı Adobe forumunda "Kodlama: Özel" (vurgu benim) gösteren başka bir örnek için aşağıdaki açıklamayı buldum :

PDF'nin içine baktıktan sonra, belgenin sayfalarında görüntülenen karakterlerin / gliflerin anlamını elde etmek için kullanılabilir bir kodlama bilgisinin (PDF'de veya gömülü font verilerinde) bulunmadığı ortaya çıkar.

Yazı tiplerinin tümü gömülüdür, ancak tüm kodlama bilgileri kaldırılmış şekilde. Bu, PDF spesifikasyonuyla sözdizimsel olarak tam uyumlu olan ancak PDF'nin hazırlanması sırasında içindeki metnin anlamı hakkında önemli bilgilerin atıldığı tipik bir PDF örneğidir . Bildiğim kadarıyla kodlama bilgilerini kurtarmak çok zor olurdu.

Bu, Mac'in Önizlemesinin (ve görünüşe göre Infix'in de) neden Adobe Reader başarısız olduğunda "Kodlama: Özel" ile bile bazı örnekleri işleyebileceğini açıklamıyor . Bilgisayarın tam yazı tipi mevcut olduğunda Önizleme'de sorun olmayabilir. Ya da belki sadece tüm kodlamalarda değil bazılarında işe yarayan bir kodlama tahmin ediyor?

Buna ne sebep olursa olsun: Google Dokümanlar veya Gmail'den geçme işe yaramazsa, belki de en kolay (ancak kolay olmaktan uzak) geçici çözüm TIFF olarak kaydetmek ve daha sonra OCR yapmaktır . Evernote gibi hizmetler anında yapabilir (resimlerde OCR yapar; PDF'de OCR yapacağından şüpheliyim).

— Arjan
kaynak

-1

Dosya 1'in indirilmesi benim için başarısız oldu, dosya 2 Hızlı ve açık kaynaklı bir pdf görüntüleyici olan xpdf ile açabildim. Sanırım formları işleyemiyor, ancak saf metin ve grafiğe hızlı başlama zamanı için tercih ediyorum.

— bilinmeyen kullanıcı
kaynak

1

Soru PDF'lerin "açılması" ya da "hızlı açılış süresiyle açılması" ile ilgili değildi. Bunun yerine, oluşturulan sayfalardan metin snippet'lerini kopyalayamama ile ilgiliydi. Dolayısıyla cevabınız muhtemelen iyi bir yanıttır, ancak bu soruya uymuyor.

— Kurt Pfeifle

-2

Ne yazık ki yardım edilemez. PDF belgeleri aslında herhangi bir harf içermez, ancak harf şekilleri içerir. Başka bir deyişle, bir harfi okumak ve ekranda çizmek yerine, herhangi bir PDF okuma uygulaması gibi Adobe Reader , dosyada kodlanmış vektör grafiklerini çizecektir .

Bununla birlikte, bazı PDF okuyucuları, metin tanımayı kullanarak şekli analiz etmeyi ve metni kurtarmayı sağlayan bir yazılımla birlikte gelir. Basılı bir metin kağıdını taradığınız ve metne geri dönüştürmek için ABBYY FineReader gibi bir yazılımı kullandığınız gibi çalışır, ancak sonsuz yüksek kaliteli vektör çizimleri nedeniyle sonuçlar genellikle taranan belgelerden çok daha iyidir.

Bazı belgeler Adobe Reader'ı kandırarak metne dönüştürülmeye karşı korunabilir. Örneğin, harf tanıma yazılımı metni tanıyamayacakken, harfler üst üste binen çeşitli şekillerde görsel olarak hala aynı görünecek şekilde çizilebilir. Belgeniz böyle bir koruma örneğidir.

Bunun bir yolu belgeyi bir görüntüye yazdırmak ve metin tanıma yazılımının bunu tanımasına izin vermektir. Görüntü için daha yüksek çözünürlük kaliteyi artıracaktır. Ancak bu yöntem gerçekten kullanışlı değildir.

— Sergiy Belozorov
kaynak

2

PDF belgeleri aslında herhangi bir harf içermez - bu, taranmayan belgelerin çoğu için geçerli değildir; bkz. en.wikipedia.org/wiki/Portable_Document_Format#Text

— Arjan

Teşekkür ederim. İlginç bilgi. PDF'de metin hakkında hiçbir bilgi olmadığını her zaman düşündüm. Yine de, Alexander tarafından sağlanan belgede gömülü metin yok gibi görünüyor. Veya orada kullanılan yazı tipinin karakterlerin garip kodlaması olabilir, yani tipik ASCII kodlamasına karşılık gelmezler.

— Sergiy Belozorov

2

Sadece şekiller olsaydı metni PDF'den nasıl kopyalayabilirdim? Kısmen haklısın - PDF'de rasterleştirilmedi (taranan bir kaynaktan değilse), ancak metin verileri dahil edildi. Bununla birlikte, yazı tipleri (genellikle) de dahil edilir ve dahil edilen metnin vektör oluşturmasına izin verir.

— Alex