Bugünden beri biliyorum: PDF'lerden metin çıkarma için en iyi şey metin çıkarma araç takımı olan TET . TET, PDFlib.com ürün ailesinin bir parçasıdır.
PDFlib.com bir Thomas Merz şirketidir. Adını tanımıyorsanız: Thomas Merz, "PostScript ve PDF İncil" in yazarıdır.
TET'in ilk enkarnasyonu bir kütüphane . Muhtemelen Budda006'nın istediği her şeyi yapabilir, sayfadaki her öğe hakkında konum bilgisi dahil. Oh, ve ayrıca görüntüleri de çıkarabilir. Parçalara ayrılmış görüntüleri yeniden birleştirir.
pdflib.com ayrıca bu teknolojinin bir başka enkarnasyonu olan Acrobat için TET eklentisini de sunuyor . Üçüncü enkarnasyon da PDFlib TET iFilter . Bu, kullanıcı masaüstü bilgisayarları için bağımsız bir araçtır. Her ikisi de özel, ticari olmayan amaçlar için (biradaki gibi) ücretsizdir.
Ve gerçekten güçlü. Adobe'nin kendi metin ayıklamasından çok daha iyi. Diğer araçların (Adobe'ler dahil) yalnızca çöp tükettiği metinleri benim için çıkardı.
Masaüstü bağımsız aracını yeni test ettim ve web sayfalarında söyledikleri doğru. Çok iyi bir komut satırı var. Bazı "sorunlu" PDF test dosyaları aracı benim tam memnuniyetini ele.
Bu şey artık her karmaşık ve zorlu PDF metin çıkarma gereksinimi için tavsiyem olacak.
TET sadece harika. Tabloları algılar. Tabloların içinde, birden çok sütuna yayılan hücreleri tanımlar. Her tablo hücresinin tablo satırlarını ve içeriklerini ayrı ayrı tanımlar. Tireleme ile çok iyi ilgilenir: tireleri kaldırır ve tam kelimeleri geri yükler. ASCII dışı dilleri destekler (CJK, Arapça ve İbranice dahil). Bitişik harfler ile karşılaşıldığında, orijinal karakterleri geri yükler ...
Bir şans ver.