Python listeleri / sözlükler / nesneler şeklinde etiketleri almak için bana yardımcı olabilir Python için bir HTML Ayrıştırıcı modülü arıyorum.
Formun bir belgesi varsa:
<html>
<head>Heading</head>
<body attr1='val1'>
<div class='container'>
<div id='class'>Something here</div>
<div>Something else</div>
</div>
</body>
</html>
iç içe etiketlere HTML etiketinin adı veya kimliği yoluyla erişmenin bir yolunu vermelidir, böylece temelde bana div
etiketin class='container'
içindeki etiketi / içeriği body
veya benzer bir şeyi almasını isteyebilirim .
Firefox'un "Öğeyi incele" özelliğini (HTML'yi görüntüle) kullandıysanız, tüm etiketleri size bir ağaç gibi güzel bir yuvalanmış şekilde verdiğini bilirsiniz.
Yerleşik bir modülü tercih ederim ama bu biraz fazla soruyor olabilir.
Stack Overflow ve internetteki birkaç blog hakkında birçok sorudan geçtim ve çoğu BeautifulSoup veya lxml veya HTMLParser'ı önerdi, ancak bu özelliklerin bir kısmı işlevselliği detaylandırıyor ve sadece daha hızlı / daha verimli olduğu bir tartışma olarak sona eriyor.