Her harften sonra fazladan boşluk eklenmiş bir metin yükü olan bir metin belgesi var!
Misal:
T h e b o o k a l s o h a s a n a n a l y t i c a l p u r p o s e w h i c h i s m o r e i m p o r t a n t…
Görme:
T␣h␣e␣␣b␣o␣o␣k␣␣a␣l␣s␣o␣␣h␣a␣s␣␣a␣n␣␣a␣n␣a␣l␣y␣t␣i ␣c␣a␣l␣␣p␣u␣r␣p␣o␣s␣e␣␣w␣h␣i␣c␣h␣␣i␣s␣␣m␣o␣r␣e␣␣i␣ m␣p␣o␣r␣t␣a␣n␣t ...
Her harften sonra fazladan boşluk olduğuna dikkat edin , bu yüzden ardışık kelimeler arasında iki boşluk vardır.
Fazla boşlukları almamın awk
veya silmemin bir yolu var mı sed
? (Ne yazık ki bu metin belgesi çok büyük ve el ile geçmesi çok uzun sürüyor.)
Ben de metin tanıma bir tür olması gerektiği gibi bu basit bir bash betiği ile çözmek için muhtemelen çok daha karmaşık bir sorun olduğunu takdir ediyorum.
Bu soruna nasıl yaklaşabilirim?
echo 't h i s i s a n e x a m p l e' | sed 's/ //g'
echo 'T h i s ; i s .a n 9 8 e x a m p l e' | perl -pe 's/[a-z]\K (?=[a-z])//ig'