Mevcut bir PDF dosyasını üzerinde OCR çalıştırarak, aranabilir olmayan orijinal dosyayı aranabilir sürümle değiştirerek aranabilir yapan ve katılımsız çalıştırabilen çevrimdışı bir komut dosyası aracı arıyorum.
Örneğin, www.pdfscannerapp.com - tam olarak ihtiyacım olanı yapıyor, ama sadece GUI - yazılabilir değil.
Evernote'un PDF dosyalarını aranabilir hale getirdiğinin farkındayım, ancak yalnızca Evernote içindeyken aranabilir durumda kalıyorlar.
Mükemmel bir OCR aramıyorum, orta derecede kabul edilebilir bir OCR bile iyi, ancak hantal bir yazılım paketi yerine küçük bir yardımcı programı tercih ederim.
(AD ile ilgili benzer ancak farklı bir sorunun farkındayım: Aranabilir ve İmzalanabilir PDF'ye Taramak veya Dönüştürmek için Yazılım Aranıyor - ancak, PDF'leri imzalamak veya doldurmak zorunda değilim ve gereksinimim çözümün yazılabilir olması)
DÜZENLE:
1) Çeşitli yardımcı programlar yapılandırılmış metin çıkarmaya izin verir, ancak çıkarılması için metnin orada olması gerekir; Tarayıcılar tarafından oluşturulan düz PDF'lerde olduğu gibi, esas olarak bitmap'leri saran PDF'lerden bahsediyorum.
2) Mutlaka ücretsiz bir çözüm aramıyorum ve sadece ihtiyacım olanı yapan iyi bir yardımcı program için ödeme yapmaktan mutluluk duyarım, ancak bir OCR özelliği içeren milyonlarca özelliğe sahip hantal uygulamalar aramıyorum ama maliyeti sadece OCR işlevselliği için satın almayı haklı göstermeyen.
3) Yukarıda belirtildiği gibi, mükemmel bir OCR aramıyorum, sadece orta derecede kabul edilebilir bir OCR arıyorum. Ne yazık ki, tecrübelerime göre, tesseract gerçekten bu eşiğin altında. En azından hesap numarasının (müşteri numarası) doğru bir şekilde tanınması için OCR yardımcı fatura tasarlayabileceği bir OCR'yi "orta derecede kabul edilebilir" olarak tanımlıyorum.
EDIT: "komut dosyası" veya "otomatikleştirilebilir", yani otomatik olarak tetiklenebilir ve insan girişi olmadan katılımsız çalışabilir.