Öncelikle, bir PDF'nin ne olduğunu anlamanız gerekir. PDF'ler yazdırılan bir sayfayı taklit etmek için tasarlanmıştır ve bir giriş biçimi değil, yalnızca bir çıktı biçimi olarak tasarlanmıştır . PDF, temelde karakterlerin tam yerini (tek tek harfler veya noktalama işaretleri vb.) veya görüntüleri içeren bir haritadır. Çoğu durumda , bir PDF, bir kelimenin bittiği ve diğerinin başladığı yer hakkında bilgi depolamaz , yumuşak sonlar ve paragraf sonları için sert sonlar gibi çok daha az şeyler.
(Bazı yeni PDF'ler bu şeyler hakkında bazı bilgiler depolar, ancak bu yeni bir teknolojidir ve bu tür PDF'ler bulabildiğiniz için şanslısınız. Yapsanız bile, PDF görüntüleyiciniz bunu bilmiyor olabilir.)
Her neyse, yalnızca bireysel karakterlerin konumlarından sözcük ne, paragraf nedir, vb. Çıkarmak için bir tür "yapay zeka" uygulamak sizin yazılımınıza kalmıştır. Farklı yazılımlar bunu diğerlerinden daha iyi yapacak ve aynı zamanda PDF'nin nasıl yapıldığına da bağlı olacaktır. Her durumda, asla mükemmel sonuçlar beklememelisiniz. Çıktı PDF'ye sahip olmak, kaynak belgeye sahip olmakla aynı değildir. Mümkünse bunu elde etmeye çalışmak daha iyi.
Türünüzün standart çözümü, PDF'yi HTML'ye dönüştürmek için Adobe Acrobat Professional'ı (pahalı olanı değil, ücretsiz okuyucu) kullanmaktır. Bu bile mükemmel sonuç alamayacak.
Bazı biçimlendirmelerde bozulma olmadan PDF'lerden metin çıkarmak için kullanılabilecek ücretsiz bir yazılım var, ancak yine de mükemmel sonuçlar beklemeyin. Bakınız örneğin calibre (RTF formatına dönüştürebilir), pdftohtml / pdfreflow veya AbiWord kelime işlemcisi (tüm ithalat / ihracat eklentileri etkinken). OpenOffice için bir PDF içe aktarma eklentisi de var.
Ancak, lütfen bu sonuçların hiçbirinde mükemmellik beklemeyin. Buradaki tahılın aleyhine gidiyorsun. PDF sadece düzenlenebilir bir giriş formatı anlamına gelmez.