Eski kütüphane kitaplarının PDF'leri… Metin ve arka plan neden ayrı katmanlarda görünüyor?

Genellikle, bir PDF'yi açtığımda , metin öğeleri veya fotoğraflar görünmeden önce bir sayfanın arka planının geldiğini görüyorum .

Bu benim için şaşırtıcı, çünkü bu PDF'lerin birçoğu Google'ın eski kütüphane kitap taramalarından geliyor ... çok katmanlı PSD'lerden değil, tam olarak nasıl davrandıkları gibi görünüyor. Metin ve fotoğraf unsurları tam anlamıyla taramadan kaldırılıyor mu - arkaplan boş alana yayılıyor - sonra metin ve fotoğraflar vektörleştiriliyor ve arkaplanda yeniden katmanlandırılıyor mu? Gerçekte neler oluyor?

pdf scanning

— dwilbank
kaynak

Bir örnek link eklemek için çekinmeyin ... Her zaman bir pdfiç görebildiğinizi ve tahmininizi kontrol edebileceğinizi unutmayın .

— Hastur

Bu, resmi otomatik olarak metne dönüştürmek için kullanılan OCR yazılımı nedeniyle olabilir. Bu, Xerox tarayıcımın OCR özelliği olan ders kitabı sayfalarını taradığımda oluyor. Çoğu zaman, ortaya çıkan PDF dosyası matındaki metin doğru görünmüyor veya fazladan boşluk içeriyor veya tamamen farklı katmanlarda!

— Peter
kaynak

Bu durum daha önce de ... Bu, dolayısıyla teorimi vectorized edilebilir ancak ... hatta muhtemelen OCR işlemi edilemedi böylece stilize metin ile olur

— dwilbank