Bu iki etiket arasındakileri bulmak isterim - <tr> </tr>
- bir html belgesinden. Şimdi bir html ayrıştırıcısı için herhangi bir özel html gereksinimim yok. Ben sadece düz ihtiyaç şey maçlar olduğunu <tr>
ve </tr>
ve aradaki her şeyi alır ve birden olabilir tr
ler. İşe yarayan awk'ı denedim, ancak bir nedenden dolayı, çıkarılan her satırın kopyalarını vermemle sonuçlandı.
awk '
/<TR/{p=1; s=$0}
p && /<\/TR>/{print $0 FS s; s=""; p=0}
p' htmlfile> newfile
Bu konuda gitmek nasıl?
awk
çalışıyor, ama yinelenenlere sort -u
sahip olmak
'/<tr/{p=1}; p; /<\/tr>/{p=0}'
. Çalışmazsa, bazı örnek girdiler ve beklenen çıktılar gönderin.