Bazı PDF dosyaları, metni kopyaladığınızda çöp (" mojibake ") üretir ( tamam olsalar bile). Bu, onları aramayı imkansız hale getirir (ne ararsanız çöp ile eşleşmez).
Kolay bir çözümü olan var mı?
Örnekler:
- TEAC TV el kitabı EU2816STF (hem Windows hem de Mac'te Adobe Reader'daki sorunların üstesinden gelir, ancak Mac'teki Önizleme'de iyi çalışır)
- Leadtek Winfast PVR2 kılavuzu (FTP bağlantısı; Mac'te Önizleme'de de sorun var)
- Swann TV tarayıcı kartı kılavuzu (FTP bağlantısı; Mac'te Önizleme'de de sorun var)
- Phonedisc lisans sözleşmesi (şimdi kaldırılmış olan DTMS'den )
- Macquarie IFP üç aylık fon incelemesi
- BAN-TACS Small Business Kitapçığı (arşivlenmiş sürüm)
- Easterfest 2004 broşürü (arşivden de)
Windows için Adobe Reader (en son sürüm) kullanıyorum - belki de alternatif bir görüntüleyici yardımcı olabilir? Windows için ücretsiz bir çözüm arıyorum. Açık kaynak daha iyi olurdu.
Düzenleme: Multivalent Extract Text aracı için belgelerin aşağıdakiler de dahil olmak üzere neden yanlış gidebileceğinin iyi bir özeti vardır:
- Metinde Unicode eşlemesi olmayabilir. PDF Tip 3 yazı tipleri genellikle yoktur ve TeX DVI'da Unicode eşdeğeri olmayan karakterler bulunur.
- Unicode kodlaması hatalı olabilir. Open Office, bazı karakterleri aynı Unicode ile eşleştirir ve sonuçta harflerin düşmesine ve iki katına çıkmasına neden olur.
Sanırım bu durumlarda nihai çözüm, o karakter ne olduğunu anlamak için bir yazı tipi her glif OCR olacaktır. Glifin tam şekli (bir "vektör" görüntüsü olduğundan sonsuz çözünürlükte) mevcut olduğundan, bunun gürültülü bir taranmış belgeyi OCR işleminden daha kolay olacağını unutmayın.
clipbrd.exe
(bkz mydigitallife.info/2008/11/06/... panoya ne var görebilir). Bu sana ne veriyor?