Bu bence XML'e verir.
İnternette gezinirsek yığın halinde PDF dosyaları bulabiliriz . Bir keresinde inanılmaz bir beş mega piksel dijital kameranın teknik detayları, bir kez bir işletmenin son iki yıllık gelirleri hakkında bir istatistik ve bir kez de Sir Arthur Conan Doyle'un mükemmel bir suç romanı PDF dosyasına kaydedildi. Bu dosya formatının yaygın kullanımı, bu tür bir dosyadaki verilerin nasıl tekrar kullanılacağı sorusuna odaklanır. Bu alanda zaten pek çok şey yapıldı. Örneğin, PDF dosyalarını başka biçimlere dönüştüren birkaç araç vardır.
Çalışmam yalnızca PDF dosyalarından tablo bilgisinin çıkarılması üzerine odaklanıyor. PDF dosyalarından temel bilgileri çıkaran araçları aradım. XML biçiminde veri döndüren pdf2html adlı bir araç buldum. Bu XML çıktısına erişmek için JDOM arşivini kullandım.
Masa tespiti ve ayrıştırma için çeşitli buluşlar geliştirdim. Bu sezgisel taramalar, berrak masalarda (yayılma sütunları ya da satırlar olmadan) oldukça iyi ve karmaşık masalarda (yayılma sıraları ya da sütunları ile) oldukça iyi çalışır.