Bir sayfanın içeriğini indirmek için basit durumlarda curl veya wget kullanın . Her ikisi de HTTP üzerinden dosya indirmek için tasarlanmış komut satırı araçlarıdır ve birçok seçeneğe sahiptir. Sizin durumunuzda, bu araçları daha çok bir tarayıcı gibi göstermeniz gerekecektir; lutzky'nin cevabı ve penguin359'un cevabı , bu açıdan yararlı olan bazı kıvrılma ve uyandırma seçeneklerinden bahsediyor.
Bazen, oturum açmanız gerektiğinde , önce bir web tarayıcısında manuel olarak oturum açmak, ardından web tarayıcısının çerezlerini dışa aktarmak ( allcookies veya Firefox için Çerezleri Dışa Aktar gibi uzantılar yardımcı olabilir) çok daha kolaydır .
Eğer gerekiyorsa içeriğini ayrıştırmak Bazı sayfalarda veya sonrası formları , sen kıvrılma ve wget daha meraklısı araçlar gerekebilir. Bazı iyi araçlar var LWP
(libwww) ve HTML::TreeBuilder
(HTML-Tree) veya standart kütüphaneli Python (özellikle httplib
vehtmllib
).
Bir web sitesiyle daha karmaşık etkileşimler için referans Perl'in WWW :: Mechanize'dir . Bu Perl kütüphanesi, bir web tarayıcısı gibi POSTing, formlar, çerezler dahil olmak üzere Javascript dahil olmak üzere etkileşim kurmak için üst düzey işlevler tanımlar. Perl sizin çayınız değilse, bu kütüphane Python mechanize ve Ruby Mechanize gibi diğer dillerde benzer özelliklere sahip taklitlere sahiptir .
Son olarak, Javascript'e ihtiyacınız olduğunda , genel yaklaşım, bir tarayıcı otomasyon çerçevesi tarafından yönlendirilen bir web tarayıcısı kullanmaktır. Selenyum ve Watir popüler seçeneklerdir; ayrıca bkz. SeleniumRC dışında JavaScript tarafından sonradan boyanmış içerik de dahil olmak üzere web sayfalarını getirebilecek iyi araçlar var mı?