Eski kütüphane kitaplarının PDF'leri… Metin ve arka plan neden ayrı katmanlarda görünüyor?


0

Genellikle, bir PDF'yi açtığımda , metin öğeleri veya fotoğraflar görünmeden önce bir sayfanın arka planının geldiğini görüyorum .

Bu benim için şaşırtıcı, çünkü bu PDF'lerin birçoğu Google'ın eski kütüphane kitap taramalarından geliyor ... çok katmanlı PSD'lerden değil, tam olarak nasıl davrandıkları gibi görünüyor. Metin ve fotoğraf unsurları tam anlamıyla taramadan kaldırılıyor mu - arkaplan boş alana yayılıyor - sonra metin ve fotoğraflar vektörleştiriliyor ve arkaplanda yeniden katmanlandırılıyor mu? Gerçekte neler oluyor?


Bir örnek link eklemek için çekinmeyin ... Her zaman bir pdfiç görebildiğinizi ve tahmininizi kontrol edebileceğinizi unutmayın .
Hastur

Yanıtlar:


1

Bu, resmi otomatik olarak metne dönüştürmek için kullanılan OCR yazılımı nedeniyle olabilir. Bu, Xerox tarayıcımın OCR özelliği olan ders kitabı sayfalarını taradığımda oluyor. Çoğu zaman, ortaya çıkan PDF dosyası matındaki metin doğru görünmüyor veya fazladan boşluk içeriyor veya tamamen farklı katmanlarda!


Bu durum daha önce de ... Bu, dolayısıyla teorimi vectorized edilebilir ancak ... hatta muhtemelen OCR işlemi edilemedi böylece stilize metin ile olur
dwilbank
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.