Son zamanlarda, ihtiyacınız olan verileri elde etmek için bir web sitesinin HTML'sini ayrıştırmak için bir normal ifade kullanmanın en iyi eylem yolu olmadığını öğrendim.
Benim sorum basit: Peki, bu verileri elde etmenin en iyi / en verimli ve genel olarak kararlı bir yolu nedir?
Şunu not etmeliyim:
- API yok
- Verileri alabileceğim başka bir kaynak yok (veritabanları, yayınlar vb.)
- Kaynak dosyalara erişim yok. (Herkese açık web sitelerinden veriler)
- Verilerin, html sayfasındaki bir tabloda görüntülenen normal metin olduğunu varsayalım
Şu anda projem için python kullanıyorum ama dilden bağımsız bir çözüm / ipuçları iyi olurdu.
Bir yan soru olarak: Web sayfası Ajax çağrıları tarafından oluşturulduğunda bu konu hakkında ne düşünüyorsunuz?
DÜZENLE:
HTML ayrıştırma durumunda, verileri elde etmek için gerçek kararlı bir yol olmadığını biliyorum. Sayfa değişir değişmez ayrıştırıcınız tamamlanır. Ne bu durumda değilse ahır demek: sayfa ayrıştırmak için etkili bir yoldur, her zaman eller bana (besbelli aynı veri kümesi için) aynı sonuçları sayfası koşuluyla o değil değiştirin.