Bu iki etiket arasındakileri bulmak isterim - <tr> </tr>- bir html belgesinden. Şimdi bir html ayrıştırıcısı için herhangi bir özel html gereksinimim yok. Ben sadece düz ihtiyaç şey maçlar olduğunu <tr>ve </tr>ve aradaki her şeyi alır ve birden olabilir trler. İşe yarayan awk'ı denedim, ancak bir nedenden dolayı, çıkarılan her satırın kopyalarını vermemle sonuçlandı.
awk '
/<TR/{p=1; s=$0}
p && /<\/TR>/{print $0 FS s; s=""; p=0}
p' htmlfile> newfile
Bu konuda gitmek nasıl?
awkçalışıyor, ama yinelenenlere sort -usahip olmak
'/<tr/{p=1}; p; /<\/tr>/{p=0}'. Çalışmazsa, bazı örnek girdiler ve beklenen çıktılar gönderin.