MS Word içeriğini metin ve dosya yardımcı programlarıyla kullanmak için düz metne aktarıyorum. Ben bir sınırlama var hat numaralandırma özelliği MS yazılımında etkinleştirilmiş olması ve son çıktıda çizgi numaralarına herhangi bir referans gerekir o numaralandırmaya maç. Bu yüzden "numaralandırma satırları" girin:
( Poe, EA )
Açıkçası, Word için , bu tür numaralandırma yeni satırdaki satırları kesmez , doğru kenar boşluğundan (veya bir şeyden) sonra "satırları" kırar . Gibi bir komut dosyası docx2txt
varsayılan olarak bunu hesaba katmaz ve yeni satırdaki satırları keser. grep -n
Numaralandırma ile kullanırsam , satırlar yukarıda gösterildiği gibi kaynak satır numaraları özelliğiyle eşleşmez. Belgeleri nasıl bu durumda ihtiyacım şekilde dönüştürmek için Perl betiğini düzenlemek gerekir tam olarak açık değildir:
our $config_newLine = "\n"; # Alternative is "\r\n".
our $config_lineWidth = 80; # Line width, used for short line justification.
Ben yerine çalıştı \n
için \r\n
ama bu benim için işe görünmüyor. Bu nedenle , aşağıdaki ayarlarla belgeleri doğrudan Word'den dışa aktarmaya başvurdum ( v.2013,64pc'de düz metin olarak kaydet):
- Unicode (UTF-8)
- (CR / LF) ile satır sonları + bitiş satırları ekleme
- Karakter değiştirmeye izin ver
Ve şimdi gerçekten ne zaman kullanmak.txt
dosyaları kaynak numaralandırma özelliği ve satır numaraları arasındaki mükemmel bir uyum vardır grep -n
çıkışı.
- Bilmem gereken belirli bir yapılandırma / işlem
docx2txt
veya benim gibi Word'e başvurmadan satır sonlarını korurken .docx dosyalarımı düz metne dönüştürmeme izin veren benzer bir komut satırı yardımcı programı var mı? - MS Word belgelerini (aksanlı karakterler içerebilen), satır kesmeleri ve biçimlendirmeyle ilgili olarak dosya / metin yardımcı programlarıyla kullanım için düz metne vermek için varsa en iyi uygulamalar nelerdir ; ve dışarı aktarmak için seçtiğim ayarlarla herhangi bir olumsuz etkisi var mı, yani CR / LF eklemek mi?
Örneklem
Önerildiği gibi bir örnek sağlarım. Bu rar arşivinde , basit paragraflarla bir .docx dosyasını ve yukarıda belirtilen seçeneklerle Word'ü kullanarak dışa aktarılan .txt dosyasını paketledim . İkincisi docx2txt
, kaynak dosyadaki varsayılan çalıştırması ile karşılaştırılabilir .