Html'yi basit ve hoş biçimli metne dönüştüren bir linux filtresi var mı?


3

CURL çıktısından gelen html yanıtını filtrelemek istiyorum. Hangi filtreyi kullanmalıyım? Midnight Commander ile html içeriğini görüntülemek hiç sorun değil, onları oldukça iyi biçimlendirilmiş düz metin olarak gösterir, bu yüzden böyle bir filtre olduğunu sanırım.

Yanıtlar:


3

Bu filtrelere "Web tarayıcıları" diyoruz - HTML kodunu ayrıştıran ve güzel belgeler çıkaran bir program.

Bağlantılar , Linux üzerinde çalışan konsol Web tarayıcılarından biridir.

Elinks başka biri.

Ayrıca W3M var .

HTML kodunuzu her zaman metin dosyasına kopyalayabilir ve Firefox, Chrome, Opera vb. GUI tarayıcısıyla açabilirsiniz.

Lütfen, HTML'yi ayrıştırmak için regex kullanmayın .

EDIT . HTML'nizi güzelleştirmek ve etiketlerle görmek isteyebileceğinizi düşündüm. Bu durumda HTML düzenli kütüphane projesini kullanabilir veya

HTML'nizi metin dosyasına kopyalayın ve <pre> </pre>etiketlerle çevreleyin . Ardından tarayıcınızla açın.


'Bu filtreleri "Web Tarayıcıları" olarak adlandırıyoruz +' Ha!
lornix

1

Curl'un html çıktısını cazip bir şekilde görüntülemek istiyorsanız, w3m, yukarıda önerilen bağlantılar veya vaşaklar yeterlidir.

Çıktıyla ayrıştırmak veya bir şey yapmak istiyorsanız , web-scraping içeren herhangi bir proje için html-xml-utils linux paketini ya da çok kullanışlı bir Python paketi olan Beautiful Soup'u öneririm .



0

gece yarısı komutanı "link" veya "lynx" kullanır. Mcview’de ayrıştırılmış HTML’i görürseniz bunlardan birinin kurulu olduğundan şüpheleniyorum.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.