Biçimlendirmeyi kaybetmeden bir PDF'den metin nasıl kopyalanır?


41

Bir PDF dosyasından ve bir metin editörüne metin kopyaladığımda, çeşitli şekillerde karışıklığa neden olur. Kalın ve italik gibi biçimlendirme kaybolur; bir metin paragrafındaki yumuşak satır sonları, sert satır sonlarına dönüştürülür; iki satırın üzerindeki bir kelimeyi kesmek için kısa çizgiler olması gerekmese bile korunur; ve tek ve çift tırnak ile değiştirilir? işaretler.

İdeal olarak, bir PDF'den metin kopyalayabilmek ve HTML kodlarına dönüştürülmüş biçimlendirmeyi, "ve" biçimine dönüştürülen "akıllı tırnakları" ve satır sonlarını doğru bir şekilde yapmak istiyorum. Bunu yapmanın bir yolu var mı?


2
Word 2013, PDF'leri açabilir. Mükemmel değil. Ancak yapılabilir
pratnala

Yanıtlar:


54

Öncelikle, bir PDF'nin ne olduğunu anlamanız gerekir. PDF'ler yazdırılan bir sayfayı taklit etmek için tasarlanmıştır ve bir giriş biçimi değil, yalnızca bir çıktı biçimi olarak tasarlanmıştır . PDF, temelde karakterlerin tam yerini (tek tek harfler veya noktalama işaretleri vb.) veya görüntüleri içeren bir haritadır. Çoğu durumda , bir PDF, bir kelimenin bittiği ve diğerinin başladığı yer hakkında bilgi depolamaz , yumuşak sonlar ve paragraf sonları için sert sonlar gibi çok daha az şeyler.

(Bazı yeni PDF'ler bu şeyler hakkında bazı bilgiler depolar, ancak bu yeni bir teknolojidir ve bu tür PDF'ler bulabildiğiniz için şanslısınız. Yapsanız bile, PDF görüntüleyiciniz bunu bilmiyor olabilir.)

Her neyse, yalnızca bireysel karakterlerin konumlarından sözcük ne, paragraf nedir, vb. Çıkarmak için bir tür "yapay zeka" uygulamak sizin yazılımınıza kalmıştır. Farklı yazılımlar bunu diğerlerinden daha iyi yapacak ve aynı zamanda PDF'nin nasıl yapıldığına da bağlı olacaktır. Her durumda, asla mükemmel sonuçlar beklememelisiniz. Çıktı PDF'ye sahip olmak, kaynak belgeye sahip olmakla aynı değildir. Mümkünse bunu elde etmeye çalışmak daha iyi.

Türünüzün standart çözümü, PDF'yi HTML'ye dönüştürmek için Adobe Acrobat Professional'ı (pahalı olanı değil, ücretsiz okuyucu) kullanmaktır. Bu bile mükemmel sonuç alamayacak.

Bazı biçimlendirmelerde bozulma olmadan PDF'lerden metin çıkarmak için kullanılabilecek ücretsiz bir yazılım var, ancak yine de mükemmel sonuçlar beklemeyin. Bakınız örneğin calibre (RTF formatına dönüştürebilir), pdftohtml / pdfreflow veya AbiWord kelime işlemcisi (tüm ithalat / ihracat eklentileri etkinken). OpenOffice için bir PDF içe aktarma eklentisi de var.

Ancak, lütfen bu sonuçların hiçbirinde mükemmellik beklemeyin. Buradaki tahılın aleyhine gidiyorsun. PDF sadece düzenlenebilir bir giriş formatı anlamına gelmez.


2
5 yıl sonra geri bildirim: büyük gelişme yok: HTML'ye dönüştürmek zorunda kaldım (acrobat x kullanarak), sonra her satırı bir MSword tablosuna yerleştirdim. (Word veya excel veya txt için kaydetme sadece her şeyi berbat etti, kromdan kopyalamak da işe yaramadı). Hala (çok) akıllı bir yazılımı bekliyorum.
JinSnow

"Biçimlendirerek kopyala" seçeneğini seçip, sağdaki limitleri de
belirterek

1
Bu kabul edilen cevap olduğu için, pratnala'nın yorumunda yazdığı (daha yeni) seçeneğinden de bahsetmenizi öneririm - pdf'i doğrudan Word 2013'ten açın. Bazı pdfs'de yukarıdaki tüm yazılımlardan daha iyi sonuçlar verdi.
BornToCode

8

Diğer bir seçenek ise, ücretsiz pdf görüntüleyicisini (Foxit) kullanıp indirmeye başlamak. Sonra 'Farklı Kaydet'i seçebilir ve bir metin dosyasına dönüştürmek için .txt'i seçebilirsiniz. Bu tüm biçimlendirmeyi koruyacaktır. Dunno'da aynısını yapıp yapamayacağınıza Dunno çünkü Foxit'e dönüştürdüğümde bir süre önce kullanmayı bıraktım.


"Farklı kaydet ... Metin" birkaç ücretsiz pdf görüntüleyicisiyle benim için çalıştı.
Jeff,

Foxit kullanıyorum ve denedim, korunmuş biçimlendirme olduğunu söyleyemem. Tek istediğim terbiyeli satır sonları ve her paragraf bir paragraftı.
pgr

Txt kullanarak tüm formları kaybedeceksiniz: fontlar, kalın, italik, renkler ve tabii ki daha gelişmiş seçenekler
skan

Foxit Reader benim için harika çalıştı
Michael Tranchida

5

Sej-da adında çok iyi bir çevrimiçi araç var . Gelişmiş PDF Manipülasyonu ile ilgilidir. İndirilecek bir yazılım yok. Bir olduğu gibi yeni çevrimiçi aracı Beta şu hala. Bir PDF'den metin çıkarmanıza ve sayısız PDF işlevine sahip olmanıza olanak tanır.

http://www.sejda.com/

Sejda fonksiyonlarının kısa bir video incelemesi 14 Kasım 2012 tarihinde Revizyon 3 tarafından yapılmıştır.

http://revision3.com/tzdaily/sejda-online-pdf


1
Bir olabilirdi hala komut satırı aracını indirin: sejda.org/download (Ben izin verir sanmıyorum metni ayıklanması biçimlendirme ile?)
Arjan

Sejda'yı Arjan
Simon

1
Ha? Demek istediğim, bunun çevrimiçi bir araç olduğunu söylüyorsunuz, ancak bir tanesi de aynı şeyi indirebilir. Ayrıca, daha ileriye bakmak: İstenildiği gibi biçimlendirmeyi koruyacağını sanmıyorum?
Arjan

Formatın korunmasının istendiğinin farkındayım, ancak denemediğiniz sürece asla bilemeyeceksiniz.
Simon,

Zengin özelliklere sahip ücretsiz bir araç olduğu ve beta sürümünden bile yok - kaybedecek bir şey yok, ama deneyin. Zamanla onun özellik seti muhtemelen uzatılacak, ama şimdilik gerçekten şikayet edemezsiniz.
Simon

5

PDF dosyanızı bir tarayıcı ile açın (Google chrome ve firefox test edildi), sonra metninizi buraya kopyalayın.


Ne yazık ki bu benim için Firefox'ta işe yaramadı.
Reb,

kapat. FF en az yazı tipi boyutlarını korudu. Chrome satır beslemelerinde bile başarısızlıkla başarısız oldu.
nd34567s32e

Ekim 2019'dan itibaren, bir PDF'yi Chrome'da açmak ve bir metin düzenleyiciye kopyalamak / yapıştırmak en azından satır sonunu korur (ancak, ne yazık ki satırlardaki baştaki boşlukları değil).
DocOc

4

Bunun için Adobe Acrobat Pro'yu kullanabilirsiniz.

Tablolar için: Acrobat 9/10 ile seçme masalar özelliği vardı. Acrobat X ile Farklı Kaydet> Elektronik Tablo> Excel'i tıklatabilirsiniz. Hatta sayfaları uzun bir e-tabloda birleştirir. Müthiş özellik.

Metin için: MS Word'e dışa aktarmak için benzer bir özellik bulunmaktadır. Farklı Kaydet> Word> Word Belgesi.

Kaynaklar:


0

Foxit, orijinal dosyayı normal PDF veya Ctrl + 6 tuşlarına basarak metin olarak görüntüleme arasında geçiş yapar (Metin modunun yakınlaştırma düzeyine biraz kıkırdayarak, okuma ve kopyalama arasında ileri geri pozisyonda fazla atlama yoktur)


0

Bunu çok yararlı buldum ( Satır Sonlarını Kaldır ):

İşte tüm satır sonlarını manuel olarak kaldırmak zorunda kalmadan bunu hızlıca çözmek için yararlı bir püf noktası Temel olarak, tüm yaptığı, tüm istenmeyen satır sonlarını otomatik olarak tek bir boşlukla değiştirerek tüm metni tek bir paragrafta birlikte çalıştırmasını sağlar:

1- İstediğiniz metni PDF'den kopyalayın.

2- yeni bir Word belgesine yapıştırın.

3- "düzenle" yi ve ardından "değiştir" i tıklayın

4- “Neyi bul” alanında olduğunuzdan emin olun

5- “daha” sonra “özel” e tıklayın

6- “paragraf işaretini” seçin (listenin en üstünde)

7- “ile değiştir” alanına tıklayın

8- boşluk çubuğuna bir kez basın

9- “tümünü değiştir” e tıklayın

10- “Tamam” a tıklayınız ardından “bul ve değiştir” kutusunu kapatınız.


-1

Adobe Reader'dan MS Excel'e kopyalayıp istediğiniz şekilde biçimlendirebilir (tablo) ve ardından Excel'den kopyalayıp yapıştırabilirsiniz. Bu çözüm harika çalışıyor. Pahalı adobe profesyonel kopyası almanıza gerek yok.


Soru metni tartışıyor. Bunun, biçimlendirmeyi HTML kodlarına dönüştürme de dahil olmak üzere metin için iyi bir genel çözüm olacağını düşünüyor musunuz?
fixer1234

-1

Bir tabloda düzenlenen bir pdf'nin metnini ve biçimini kaydetmeye çalışıyordum. Acrobat Professional'da excel belgesi olarak kaydetmeyi sağlayan 'Farklı Kaydet' seçeneğinin bulunduğunu anladım. Bu benim ihtiyaçlarım için iyi çalıştı. Ayrıca Word'de Farklı Kaydet belgesi seçeneği de olduğunu fark ettim. Yine de denemedim.


2
Bu, kullanıcının156787 yanıtını çoğaltır.
fixer1234
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.