«text-processing» etiketlenmiş sorular

Metnin programlar, komut dosyaları vb. Tarafından işlenmesi veya incelenmesi

6
Geçersiz utf8 filtreleme
Bilinmeyen veya karışık kodlamada bir metin dosyasına sahibim. UTF-8 geçerli olmayan bir bayt dizisi içeren satırları görmek istiyorum (metin dosyasını bir programa aktararak). Eşdeğer olarak, geçerli UTF-8 olan satırları filtrelemek istiyorum. Başka bir deyişle, arıyorum .grep [notutf8] İdeal bir çözüm taşınabilir, kısa ve diğer kodlamalara genelleştirilebilir olacaktır, ancak en iyi …



19
CSV dosyalarını işlemek için sağlam bir komut satırı aracı var mı?
CSV dosyalarıyla çalışıyorum ve bazen satır veya sütunun içeriğini komut satırından hızlıca kontrol etmem gerekiyor. Birçok durumda cut, head, tail, ve işi yapacak arkadaşlar; ancak, kesim gibi durumlarla kolayca baş edemezsiniz "this, is the first entry", this is the second, 34.5 Burada, ilk virgül ilk alanın bir parçasıdır, ancak cut …

3
Bir metin dosyasının kodlamasını nasıl test edebilirim… Geçerli mi ve nedir?
Herhangi bir uyarı / hata olmadan Gedit'te.htm açan birkaç dosyam var , ancak bu dosyaları açtığımda Jeditgeçersiz UTF-8 kodlaması konusunda beni uyarıyor ... HTML meta etiketi "charset = ISO-8859-1" ifadesini belirtir. Jedit , geri dönüş kodlamalarının bir listesini ve kodlama otomatik dedektörlerinin bir listesini (şu anda "BOM XML-PI") sağlar, bu …

8
TXT nasıl PDF'ye dönüştürülür?
.txtDosyaları dönüştürmek istiyorum .pdf. Bunu kullanıyorum: ls | while read ONELINE; do convert -density 400 "$ONELINE" "$(echo "$ONELINE" | sed 's/.txt/.pdf/g')"; done Ancak bu bir "hata" üretir - metin dosyasında çok uzun bir satır varsa, kaydırılmaz. Giriş metni PDF çıktısı - Ayrıca, çıktı PDF'nin metin görüntüleri yerine metin içeriyor olması …

5
Dosyadan son satırı sil
sed Gibi belirli bir konuma sahip satırları hızlı bir şekilde silmek için kullanın sed '1d' sed '5d' Ancak, dosyanın son satırını silmek istersem ve satır sayısını bilmezsem (bunu kullanarak wcve birkaç başka numara kullanabileceğimi biliyorum ). Şu anda, ile bir geçici çözüm kullanarak headve bunun için tailbirlikte wc. Burada hızlı …

5
Bir dosyadaki ortam değişkenlerini gerçek değerleri ile değiştir.
Bir dosyadaki ortam değişkenlerini değiştirmek / değerlendirmek için kolay bir yol var mı? Diyelim ki içinde bir dosya config.xmlvar: <property> <name>instanceId</name> <value>$INSTANCE_ID</value> </property> <property> <name>rootPath</name> <value>/services/$SERVICE_NAME</value> </property> ...vb. $INSTANCE_IDDosyada, INSTANCE_IDortam değişkeninin $SERVICE_NAMEdeğeri ile, SERVICE_NAMEenv var değerinin yerine geçmek istiyorum . Hangi ortam değişkenine ihtiyaç duyulduğunu önceden bilmiyorum (daha doğrusu, biri …





4
Bir dosyanın sonundan başlayarak Grep
Yaklaşık 30.000.000 satırlık (Radius Muhasebe) bir dosyam var ve verilen bir desenin son eşleşmesini bulmam gerekiyor. Komuta: tac accounting.log | grep $pattern İhtiyacım olanı veriyor, ancak çok yavaş çünkü işletim sistemi önce tüm dosyayı okumak ve sonra da boruya göndermek zorunda. Bu yüzden, dosyayı son satırdan birincisine kadar okuyabilen bir …


1
Tr ascii olmayan (unicode) karakterlerden nasıl haberdar olunur?
Bazı karakterleri dosyadan kaldırmaya çalışıyorum (UTF-8). trBu amaç için kullanıyorum : tr -cs '[[:alpha:][:space:]]' ' ' <testdata.dat Dosyada bazı yabancı karakterler var ("Латвийская" veya "àé" gibi). trOnları anlamış görünmüyor: Onları alfa olmayan olarak görür ve bunları da kaldırır. Yerel ayarlarımın bazılarını değiştirmeyi denedim: LC_CTYPE=C LC_COLLATE=C tr -cs '[[:alpha:][:space:]]' ' ' …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.