Bir çok ayrıştırıcıyı kodluyorum. Şimdiye kadar, ayrıştırma ve tarayıcı otomasyonu için HtmlUnit başsız tarayıcı kullanıyordum.
Şimdi her iki görevi de ayırmak istiyorum.
Çalışmamın% 80'i sadece ayrıştırmayı içerdiğinden, HtmlUnit'te önce bir sayfa yüklemek, sonra kaynağı almak ve sonra ayrıştırmak çok zaman aldığı için hafif bir HTML ayrıştırıcı kullanmak istiyorum.
Hangi HTML ayrıştırıcısının en iyi olduğunu bilmek istiyorum. Ayrıştırıcı, HtmlUnit ayrıştırıcısına yakınsa daha iyi olur.
DÜZENLE:
En iyi ihtimalle, en azından aşağıdaki özellikleri istiyorum:
- hız
- Herhangi bir HtmlElement öğesini "id" veya "name" veya "tag type" ile bulmayı kolaylaştırın.
Kirli HTML kodunu temizlemezse benim için sorun olmaz. Herhangi bir HTML kaynağını temizlememe gerek yok. Sadece HtmlElements arasında hareket ve onlardan veri hasat için en kolay bir yol gerekir.