«html-parsing» etiketlenmiş sorular

HTML ayrıştırma, bir HTML belgesinin serileştirilmesini tüketme ve programlı olarak çalışabileceğiniz bir sunum üretme sürecidir - örneğin, ondan veri çıkarmak için. HTML belirtimi, tüm büyük tarayıcılarda uygulanan HTML ayrıştırmak için standart bir algoritma tanımlar.


30
HTML kazıma seçenekleri? [kapalı]
Kapalı . Bu sorunun daha fazla odaklanması gerekiyor . Şu anda cevapları kabul etmiyor. Bu soruyu geliştirmek ister misiniz? Soruyu, yalnızca bu yayını düzenleyerek tek bir soruna odaklanacak şekilde güncelleyin . 6 yıl önce kapalı . HTML kazıma için bir Python paketi olan Beautiful Soup'u denemeyi düşünüyorum . Bakmam gereken …

9
HTML dizesini JS ile ayrıştırma
Bir çözüm aradım ama hiçbir şey ilgili değildi, işte benim sorunum: HTML metni içeren bir dizeyi ayrıştırmak istiyorum. JavaScript ile yapmak istiyorum. Bu kütüphane denedim ama bir dize değil, geçerli sayfamın HTML ayrıştırdığı görünüyor. Çünkü aşağıdaki kodu denediğimde sayfamın başlığını değiştiriyor: var parser = new HTMLtoDOM("<html><head><title>titleTest</title></head><body><a href='test0'>test01</a><a href='test1'>test02</a><a href='test2'>test03</a></body></html>", document); …

18
HTML'yi ayrıştırmak için normal ifadeler kullanma: neden olmasın?
Askerlerin HTML'den bazı bilgileri almak için regex'i kullandığı stackoverflow'daki her sorunun kaçınılmaz olarak HTML'yi ayrıştırmak için regex kullanmamayacağını söyleyen bir "cevabı" olacaktır. Neden olmasın? Güzel Çorba gibi alıntı-unquote "gerçek" HTML ayrıştırıcıları olduğunu biliyorum ve güçlü ve kullanışlı olduklarından eminim, ancak sadece basit, hızlı veya kirli bir şey yapıyorsanız, neden birkaç …

3
Hangi HTML Ayrıştırıcı en iyisidir? [kapalı]
Şu anda olduğu gibi, bu soru Soru-Cevap formatımıza uygun değil. Yanıtların gerçekler, referanslar veya uzmanlık tarafından desteklenmesini bekliyoruz, ancak bu soru muhtemelen tartışma, tartışma, oylama veya genişletilmiş tartışma talep edecektir. Bu sorunun çözülebileceğini ve muhtemelen yeniden açılabileceğini düşünüyorsanız, yardım için yardım merkezini ziyaret edin . 7 yıl önce kapalı . …

7
Python kullanarak HTML'yi ayrıştırma
Python listeleri / sözlükler / nesneler şeklinde etiketleri almak için bana yardımcı olabilir Python için bir HTML Ayrıştırıcı modülü arıyorum. Formun bir belgesi varsa: <html> <head>Heading</head> <body attr1='val1'> <div class='container'> <div id='class'>Something here</div> <div>Something else</div> </div> </body> </html> iç içe etiketlere HTML etiketinin adı veya kimliği yoluyla erişmenin bir yolunu …


5
Düzenli ifade kullanmıyorlarsa HTML ayrıştırmaları nasıl çalışır?
Her gün bir HTML dizgisinden bir şeyin nasıl ayrıştırılacağını veya çıkarılacağını soran sorular görüyorum ve ilk cevap / yorum her zaman "Öfkeyi hissetmemek için HTML'yi ayrıştırmak için RegEx'i kullanmayın!" (bu son kısım bazen ihmal edilir). Bu benim için oldukça kafa karıştırıcı, her zaman genel olarak herhangi bir karmaşık dizeyi çözümlemenin …

6
Node.js ile bir HTML sayfasını nasıl ayrıştırırım?
Büyük miktarda HTML sayfasını (sunucu tarafında) ayrıştırmam gerekiyor. Hepimiz regexp'in buraya gitmek için yol olmadığı konusunda hemfikiriz. Bana öyle geliyor ki javascript, bir HTML sayfasını ayrıştırmanın yerel yolu, ancak bu varsayım, javascript'in bir tarayıcının içinde sahip olduğu tüm DOM yeteneğine sahip sunucu tarafı koduna dayanıyor. Node.js yerleşik olarak bu yeteneğe …

8
Grep, regex veya perl ile bir kalıbı takip eden dizge nasıl çıkarılır
Şuna benzeyen bir dosyam var: <table name="content_analyzer" primary-key="id"> <type="global" /> </table> <table name="content_analyzer2" primary-key="id"> <type="global" /> </table> <table name="content_analyzer_items" primary-key="id"> <type="global" /> </table> Aşağıdaki alıntılardan herhangi bir şey çıkarmam gerekiyor name=, yani content_analyzer, content_analyzer2ve content_analyzer_items. Bunu bir Linux kutusunda yapıyorum, bu nedenle sed, perl, grep veya bash kullanan bir çözüm …

8
JavaScript veya jQuery'de HTML nasıl normalleştirilir?
Etiketlerin birden çok özelliği olabilir. Özniteliklerin kodda görünme sırası önemli değildir. Örneğin: <a href="#" title="#"> <a title="#" href="#"> HTML'yi Javascript'te nasıl "normalleştirebilirim", böylece özniteliklerin sırası her zaman aynı olur? Her zaman aynı olduğu sürece hangi sıranın seçildiği umrumda değil. GÜNCELLEME : Asıl hedefim, küçük farklılıklar içeren (JavaScript'te) 2 HTML sayfasını …
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.