.one
Bittiğinde Apache Tika projesine ekleyeceğim dosya uzantısı için bir ayrıştırıcı oluşturuyorum .
İşte oluşturduğum APL 2.0 lisanslı Açık Kaynak projesi: https://github.com/nddipiazza/onenote-parser-java
Teknik özellik belgesini burada kullandım: https://docs.microsoft.com/en-us/openspecs/office_file_formats/ms-one/73d22548-a613-4350-8c23-07d15576be50
Başlangıç noktası olarak, bu açık kaynak C ++ projesinin kodunu taşıdım: https://github.com/dropbox/onenote-parser
Belgelerin ayrıştırılmasında uzun bir yol kat ettim, ama bir yol engeline çarptım.
Ayrıştırmak için kullandığım OneNote dosyası: https://drive.google.com/file/d/1uROTEnKeBKU08CG_K5zdDTGHa178LgBK/view?usp=sharing
Ayrıştırılmış sonuçlarımda Section1TextArea1 ve Section1TextArea2 görüntüleyemiyorum. Yani bir tür anahtar veri ayrıştırma elemanı ya da başka bir şey eksik.
Kesinlikle OneNote dosyasının içinde. Onaltılı görüntüleyicide görebilirsiniz:
JSON ayrıştırma çıktısı şudur: https://gist.github.com/nddipiazza/02d2252d357b3b02a6b9ab1050474267
Spesifikasyon belgesinin bu tescilli formatı ayrıştırmak için gereken bazı çok önemli bilgileri kaçırdığını hissediyorum.
Gerçek metin içeriğini almama neden olan hangi ana unsurları kaçırıyorum?