Yanıtlar:
Cygwin (veya bir Linux makinesine erişim) ile
antiword file.doc | grep "my phrase"
veya
catdoc file.doc | grep "my phrase"
Benzer bir şekilde grep için orada birçok komut satırı dosya formatı dönüştürücü vardır .
Tamamen Word'de çözüm Ctrl + F (Bul) ve ardından Tümünü Bul olabilir - ancak, MS Word'ün tüm sürümlerinde Tümünü Bul düğmesi olup olmadığından emin değilim .
catdoc
Her verdiğim .doc
/ .docx
dosyadaki segfaults'un en son sürümü antiword
bana verdiğim belgeyi "Word Belgesi değil" diyor. Başka seçenekleri biliyor musunuz?
docx2txt
Debian depolarında bulunan hızlı arama gösterileri işe yarayabilir. Ayrıca aynı amaç için kullanılabilecek OpenOffice / LibreOffice komut satırı biçimi dönüştürme yardımcı programı (unoconv) içine bakmak istiyorum.
Word bağlamında "satır" ne demektir? Sayfa biçimlendirmesine herhangi bir şey yaparsanız değişen görüntülenen satır? Paragraf? Başka bir şey?
Biçimlendirmeyi ve diğer belirgin olmayan şeyleri değiştirmek de dahil olmak üzere, Word'ün bul ve değiştir işlevleriyle bir sürü şey yapabilirsiniz, ancak hepsi çevreleyen metinde değil, sadece bul metninin kendisinde hareket edecektir.
PowerGREP tam olarak bunu sizin için yapacak ve hızlı - ama ücretsiz değil. Bence her kuruşa değer. Ayrıca, 30 günlük ücretsiz deneme var.
Yorum yapmak için yeterli temsilcisi var ama herkes (olduğu gibi) iş parçacığı kovalayan bu yararlı bulabilirsiniz böylece docx sorun vs tartışılan görebilirsiniz.
Docx dosyaları için özel bir araca ihtiyacınız yoktur. docx sıkıştırılmış XML dosyalarıdır.
XML'yi ayıklamak ve çıkarmak için aşağıdakilere dayalı bir şey deneyin
unzip -p "*.docx" word/document.xml | sed -e 's/<[^>]\{1,\}>//g; s/[^[:print:]]\{1,\}//g'
dan komut satırı fu
Hızlı, ücretsiz, açık kaynaklı ve platformlar arası çözüm: https://github.com/phiresky/ripgrep-all